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Ludwig M. Eichinger gewidmet 


Vorwort 


Wo steht die germanistische Sprachwissenschaft aktuell? Der vorliegende Band 
mit dem Titel „Digitale Infrastrukturen für die germanistische Forschung“ ist 
der sechste Teil einer auf sechs Bände angelegten Reihe, die eine zwar nicht 
exhaustive, aber doch umfassende Bestandsaufnahme derjenigen Themen- 
felder innerhalb der germanistischen Linguistik bieten will, die im Kontext der 
Arbeiten des Instituts für Deutsche Sprache in den letzten Jahren für das Fach 
von Bedeutung waren und in den kommenden Jahren von Bedeutung sein 
werden (und von denen nicht wenige auch vom Institut für Deutsche Sprache 
bedient wurden und werden). Jeder einzelne Band behandelt ein abgeschlos- 
senes Themengebiet und steht insofern für sich; in der Zusammenschau aller 
Bände ergibt sich ein Panorama der „Germanistischen Sprachwissenschaft 
um 2020“. 

Anlass des Erscheinens dieser Bände ist der Eintritt des langjährigen 
Direktors des Instituts für Deutsche Sprache, Ludwig M. Eichinger, in den 
Ruhestand. Ludwig M. Eichinger leitete das Institut von 2002 bis 2018. Seine 
akademische Laufbahn begann er als Wissenschaftlicher Assistent an der Uni- 
versität Bayreuth; anschließend war er Heisenberg-Stipendiat an der Ludwig- 
Maximilians-Universität München. Ab 1990 hatte er eine Fiebiger-Professur für 
Deutsche Sprachwissenschaft an der Universität Passau inne, 1997 wurde er auf 
den Lehrstuhl für Deutsche Philologie an der Christian-Albrechts-Universität zu 
Kiel berufen. Mit seiner Ernennung zum Direktor des Instituts für Deutsche 
Sprache im Jahr 2002 wurde er auch Ordinarius für Germanistische Linguistik 
an der Universität Mannheim. Ludwig M. Eichinger ist Ehrendoktor der Panno- 
nischen Universität Veszprém und der Universität Bukarest. Er ist Mitglied der 
Akademie der Wissenschaften und der Literatur zu Mainz und der Österreichi- 
schen Akademie der Wissenschaften; außerdem ist er Ständiger Gastprofessor 
an der Beijing Foreign Studies University. 

Ludwig M. Eichinger hat das Institut in den Jahren seines Wirkens ent- 
scheidend geprägt; in Anerkennung und Dankbarkeit seien ihm diese Bände 
gewidmet. 


Albrecht Plewnia und Andreas Witt 
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Henning Lobin, Roman Schneider und Andreas Witt 
Organisierte Kooperativität — Forschungs- 
infrastrukturen für die germanistische 
Linguistik 


Abstract: Der vorliegende Band befasst sich mit dem Stand und der Entwicklung 
von Forschungsinfrastrukturen für die germanistische Linguistik und einigen 
angrenzenden Bereichen. Einen zentralen Aspekt dabei bildet die Notwendig- 
keit, Kooperativität in der Wissenschaft im institutionellen Sinne, aber auch 
in Hinsicht auf die wissenschaftliche Praxis zu organisieren. Dies geschieht in 
Verbünden als Kooperationsstrukturen, wobei Sprachwissenschaft und Sprach- 
technologie miteinander verbunden werden. Als zentraler Forschungsressour- 
ce kommen dabei Korpora und ihrer Erschließung durch spezielle, linguistisch 
motivierte Informationssysteme besondere Bedeutung zu. Auf der Ebene der 
Daten werden durch Annotations- und Modellierungsstandards die Vorausset- 
zung für eine nachhaltige Nutzbarkeit derartiger Ressourcen geschaffen. 


Keywords: Kooperation, Forschungsverbund, Infrastruktur, Sprachwissen- 
schaft, Sprachtechnologie, Korpus, Informationssystem, Annotation, Model- 
lierung 


1 Einführung 


Noch vor wenigen Jahren wäre ein Band wie der vorliegende zu digitalen Infra- 
strukturen für die sprachgermanistische Forschung kaum zu realisieren gewe- 
sen. Das liegt nicht allein daran, dass die Digitalisierung erst seit etwa 20 Jah- 
ren nach und nach ihre volle Wucht auch in den Geisteswissenschaften 
entfaltet hat. Forschungsinfrastrukturen lassen sich nicht ohne Kooperation 
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zwischen den Wissenschaftlerinnen und Wissenschaftlern entwickeln und 
betreiben, und das Prinzip der Kooperativität war in der geisteswissenschaft- 
lichen Forschung nicht so ausgeprägt wie in Disziplinen, die schon immer auf 
Großgeräte angewiesen waren. Zum „Großgerät“ der germanistischen Linguistik 
sind heute vernetzte (Korpus-)Infrastruktursysteme geworden, und dieser Band 
will Stand und Perspektiven dieses neuen, wichtigen Bereichs behandeln. 
Beginnend mit den Strukturen der Kooperation in Verbünden wird der Gegen- 
stand theoretisch, methodisch und beispielhaft empirisch entfaltet. Fallstudien, 
wie Sprachkorpora in Verbindung mit sprachtechnologischen Verfahren zur 
Erkenntnisgewinnung eingesetzt werden, die hypermediale Vermittlung derart 
erarbeiteter Forschungsergebnisse sowie exemplarische Korpussysteme ver- 
mitteln ein Bild von den Möglichkeiten, die aufgrund von Forschungsinfra- 
strukturen schon heute bestehen. Eine zentrale Grundlage dafür spielen Verab- 
redungen zur Anreicherung von Texten mit Metadaten und wiederkehrenden 
Datenstrukturen. All diese Aspekte werden im Folgenden in vier Kapiteln be- 
handelt. 

Ludwig M. Eichinger hat in den 16 Jahren seiner Tätigkeit als Direktor des 
Instituts für Deutsche Sprache (IDS) in Mannheim die Bedeutung dieser Ent- 
wicklungen so frühzeitig erkannt, dass das IDS nicht nur für die germanis- 
tische Linguistik, sondern für die Sprachwissenschaft in Deutschland über- 
haupt in vielen Bereichen zu einem Zentrum der Infrastrukturentwicklung 
werden konnte. Die Beiträge in diesem Band zeigen, dass das IDS aufgrund 
dieser Weichenstellung heute nicht nur in institutioneller Hinsicht, sondern 
auch bei Sprachressourcen und in der korpuslinguistischen Forschung eine 
zentrale Position in der Forschungslandschaft einnimmt. 


2 Zu den Beiträgen in diesem Band 


2.1 Kapitel | - Kooperationen und Verbünde 


Im ersten Teil des Bandes, „Kooperationen und Verbünde“, wird in vier Beiträ- 
gen die gegenwärtige Situation im Bereich von Forschungsinfrastrukturen und 
-ressourcen beleuchtet. Im einleitenden Beitrag legt Thomas Gloning dar, auf 
welcher Traditionsgrundlage in einem Fach wie der Germanistik die heutige 
Entwicklung von Forschungsinfrastukturen zu betrachten ist und wie sehr 
auch bislang schon Formen der Kollaboration den wissenschaftlichen Diskurs 
geprägt haben. Trotzdem führt die Digitalisierung auch in dieser Disziplin zu 
massiven Veränderungen, die eine Neubestimmung zukünftiger Aufgaben in 
Funktionsbereichen wie Kommunikation, Information und Publikationswesen 
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als notwendig erscheinen lasst. Glonings Beitrag miindet in die Formulierung 
von sechs Aufgabenbereichen fiir den Ausbau von Infrastrukturangeboten aus 
der Perspektive wissenschaftlicher Nutzer. 

Auch Erhard Hinrichs stellt die aktuelle Entwicklung von Infrastrukturen 
fiir Forschungsdaten in einen historischen Kontext: In der Entwicklung der 
Sprachwissenschaft im 20. Jahrhundert ist schon lange die Tendenz zu einer 
Verbreiterung ihrer empirischen Grundlagen zu verzeichnen. Mit der Digita- 
lisierung treten dabei nicht nur viel mehr, sondern auch andere Arten von 
Sprachdaten in Erscheinung, und durch diese werden besondere Anforderun- 
gen an Forschungsinfrastrukturen gestellt. Hinrichs exemplifiziert anhand des 
Verbundprojekts CLARIN, wie solchen Anforderungen in internationalen 
Verbiinden begegnet werden kann und dabei vielfaltige Riickwirkungen auf 
nationale Planungen zu verzeichnen sind. 

Stefan Schmunk, Frank Fischer, Mirjam Blümm und Wolfram Horst- 
mann setzen in ihrem Beitrag sogar noch einen Schritt früher an: Sie stellen 
die Entwicklung geistes- und sozialwissenschaftlicher Forschungsinfrastruk- 
turen insgesamt dar, da diese in vielen Disziplinen ausgehend von den existie- 
renden Infrastruktureinrichtungen wie wissenschaftlichen Bibliotheken bereits 
seit den 1970er Jahren zunehmend zum Thema geworden sind. Die Digitali- 
sierung bedeutet dabei nicht nur eine Chance, sondern produziert selbst auch 
neue Probleme wie die nachträgliche digitale Erfassung analoger Datenträger. 
Ähnlich wie im Bereich der Sprachwissenschaft mit CLARIN existiert für die 
Geistes- und Sozialwissenschaften insgesamt ein internationaler Forschungs- 
verbund, DARIAH, der eine nationale Spiegelung in Deutschland erfahren hat. 
Schmunk et al. lassen die Darstellung von DARIAH in die Formulierung von 
Designprinzipien münden, die bei der Entwicklung digitaler Forschungsinfra- 
strukturen zu beachten sind. 

Karlheinz Mörth und Tanja Wissik wenden den Blick in ein anderes 
deutschsprachiges Land. Sie zeigen, wie in Österreich in verschiedenen 
Schwerpunktbereichen Sprachressourcen aufgebaut worden sind. Anders als 
in Deutschland besitzt Österreich mit dem Austrian Centre for Digital Humani- 
ties (ACDH) an der Österreichischen Akademie der Wissenschaft einen zentra- 
len Knotenpunkt für eine Vielzahl forschungsinfrastruktureller Aktivitäten, der 
auch als österreichischer Partner sowohl im CLARIN- als auch im DARIAH- 
Netzwerk fungiert. 


2.2 Kapitel II - Sprachwissenschaft und Sprachtechnologie 


Der zweite Teil des vorliegenden Bandes, „Sprachwissenschaft und Sprachtech- 
nologie“, befasst sich mit der Nutzung sprachwissenschaftlicher Forschungs- 
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infrastruktur bei der Beantwortung konkreter Forschungsfragen. Hannah 
Kermes und Elke Teich entwickeln in ihrem Beitrag eine generische Methodik 
fiir die Erstellung und Analyse von Textkorpora, die bei den Rohdaten ansetzt 
und über Vorverarbeitung und linguistische Annotation unter Verwendung 
automatisierter Verfahren zu einer standardisierten Grundlage fiir empirische 
Analysen führt. Wie darauf basierende Korpusanalysen durchgeführt werden 
können, erläutern sie an einem Beispiel, das insbesondere das Wechselspiel 
zwischen den vorgegebenen Möglichkeiten derartiger Infrastruktursysteme 
und stets notwendigen individuellen Anpassungen und Ergänzungen in den 
Blick nimmt. 

Auch Kerstin Eckart, Markus Gärtner, Jonas Kuhn und Katrin Schweitzer 
befassen sich in ihrem Beitrag mit methodischen Aspekten, hier allerdings 
bezogen auf Korpora gesprochener Sprache. Einen zentralen Aspekt ihrer Über- 
legungen bilden Qualität und Konsistenz der Korpusdaten, für die sie als einen 
praktikablen Kompromiss die „Silberstandard-Methode“ vorschlagen. Exem- 
plarisch zeigen auch sie, wie integrative Forschungsinfrastruktursysteme ge- 
nutzt werden können, um neuartige Fragestellungen effektiv zu bearbeiten. 

Alexander Mehler, Wahed Hemati, Rüdiger Gleim und Frank Baumartz 
stellen die Entwicklung von Forschungsinfrastrukturen in den Kontext gene- 
reller Digitalisierungstendenzen und zeigen, wie man dies als einen evolutio- 
nären Prozess zu neuartigen Systemen auffassen kann. Neben Infrastrukturen 
zur Visualisierung von Korpusanalyseergebnissen betrachten sie Infrastruktur- 
systeme für linguistische Netzwerke, die in Gestalt von Wikipedia neue Mög- 
lichkeiten der Netzwerkanalyse sprachlicher Kommunikation eröffnen. 

Im letzten Beitrag dieses Teils wenden sich Hans-Jürgen Bucher und Philipp 
Niemann der Medienwissenschaft zu, in der zwar gesprochene oder schrift- 
liche sprachliche Daten eine wichtige Rolle spielen, dies aber eingebettet in 
eine Vielzahl anderer Modalitäten und Medien. Sie weisen auf einen Nachhol- 
bedarf von Infrastrukturen für die Medienforschung hin und zeigen am Bei- 
spiel der qualitativen Rezeptionsanalyse, wie durch kleine Forschungseinhei- 
ten und einen realistischen Umgang mit Standardisierungserwartungen in 
Verbindung mit einem Stufenmodell der Entwicklung von Infrastrukturen For- 
schungsmöglichkeiten geschaffen werden können, die auch bei solchen Er- 
kenntnisinteressen einen erheblichen Mehrwert für die Forschung versprechen. 


2.3 Kapitel III - Korpora und Informationssysteme 


Im dritten Teil dieses Bandes werden einige ganz bestimmte Korpora und Infor- 
mationssysteme mit ihren Eigenschaften und in ihrer Genese betrachtet. Den 
Auftakt dazu machen Ruxandra Cosma und Marc Kupietz mit einer Darstel- 
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lung von Korpora und der Korpusinfrastruktur am Institut für Deutsche Spra- 
che, bei der sie eine Parallele zum Infrastrukturbereich des Schienenverkehrs 
ziehen. Mit der Digitalisierung wird das „Gleissystem“ ausgebaut und die 
„Geschwindigkeit“ der „Züge“ größer, so dass leistungsfähige Netze entstehen, 
an denen das IDS maßgeblich beteiligt ist. Aus dem deutschen Referenzkorpus 
erwächst inzwischen der Plan eines parallelen europäischen Referenzkorpus, 
dessen Entwicklung mit dem Sprachpaar Deutsch-Rumänisch bereits begon- 
nen worden ist. 

Ein zweites Korpus, das von einer kompletten Korpusinfrastruktur um- 
geben ist, stellen Alexander Geyken, Matthias Boenig, Susanne Haaf, Bryan 
Jurish, Christian Thomas und Frank Wiegand vor. Für das Deutsche Text- 
Archiv (DTA) wurden verschiedene Werkzeuge zur Erstellung und Annotation 
von Textressourcen entwickelt, die durch eine Umgebung zur kollaborativen 
Qualitätssicherung ergänzt werden. Auch für die Datenanalyse wurden DTA- 
spezifische Visualisierungsmöglichkeiten für historische Wortverläufe und 
Kollokationen geschaffen. Da diese Arbeiten parallel zum Aufbau des CLARIN- 
Verbundes stattgefunden haben und mit diesem abgestimmt wurden, können 
nach offizieller Beendigung des Projekts sämtliche Angebote im Rahmen von 
CLARIN weitergeführt werden. 

Andrea Rapp verlängert in ihrem Beitrag die historischen Linien bis ins 
Mittelalter. Sie erläutert die integrative Kraft, die die kollaborative Arbeit an 
Quellensammlungen, Korpora und Wörterbüchern für die Mediävistik aufweist. 
Die digitale Bearbeitung historischer Quellen gliedert sich dabei in eine 
Traditionslinie ein, die zur Ausprägung des Forschungsgebietes der Digital 
Humanities geführt hat. 

Martine Dalmas und Roman Schneider befassen sich das Kapitel ab- 
schließend mit einem anderen Typ digitaler Sprachressourcen, mit Online- 
Grammatiken. Das weit ausgebaute Angebot des IDS bietet für sie die Grund- 
lage für die Erörterung der Frage, wie digitale grammatische Informationssys- 
teme insbesondere aus Sicht der Auslandsgermanistik eingesetzt werden kön- 
nen und welche Erwartungen dabei bestehen. Sie betonen, dass grammatische 
Traditionen in der Kontrastsprache einerseits, strukturelle Differenzen zwi- 
schen den Sprachen andererseits dazu führen müssen, die spezifische Perspek- 
tive von Forschenden und Sprachlernenden mit einem anderen erstsprach- 
lichen Hintergrund zu berücksichtigen. 


2.4 Kapitel IV - Annotation und Modellierung 


Im letzten Kapitel des vorliegenden Bandes wird der Bogen beendet, der mit 
dem ersten Kapitel begonnen wurde. Um funktionierende Kooperationen und 
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Verbünde zu ermöglichen, ist es notwendig, Daten in standardisierter Form 
mit Zusatzinformationen anzureichern und die entstehenden Datenstrukturen 
durch Regeln zu beschreiben, so dass die aufwandig entwickelten Verarbei- 
tungsverfahren auch auf zukünftige Daten angewandt werden können. Diesen 
Aspekt von Annotation und Modellierung führt C. M. Sperberg-McQueen an 
Hand der Extensible Markup Language (XML) aus. In XML lassen sich alle 
Elemente für die Gewährleistung von Interoperabilität finden: eine definierte 
Syntax der Annotation, ein definiertes Datenmodell und die Möglichkeit, mit 
einer „Datengrammatik“ die Korrektheit der Annotation zu überprüfen. Anfor- 
derungen an die Interoperabilität bestehen aber auch in einem weitergehenden 
inhaltlichen Sinne hinsichtlich der Datenstrukturierung. 

Michael Beißwenger zeigt in seinem Beitrag, wie die für textbezogene 
Forschung in den Geisteswissenschaften entwickelten Dokumentgrammatiken 
der Text Encoding Initiative für Kommunikate der internetbasierten Kommuni- 
kation erweitert werden können. Dieser Kommunikationstyp eröffnet aufgrund 
seiner Unmittelbarkeit und der prinzipiellen Vollständigkeit seiner Erfassung 
eine interessante Forschungsperspektive für die germanistische Linguistik, 
führt aber auch zu praktischen Erfassungs- und Annotationsproblemen, zu 
deren Behebung die auf traditionellen Texttypen entwickelten Verfahren ange- 
passt werden müssen. 

Abschließend vollziehen Gerhard Heyer, Gregor Wiedemann und Andreas 
Niekler den Übergang in die Semantik-Modellierung: Sie zeigen in ihrem Bei- 
trag, wie mit dem Konzept des Topic Modeling mit statistischen Mitteln Themen 
in Texten identifiziert und in ihrer Entwicklung in einem Korpus verfolgt wer- 
den können. Der Aspekt der Modellierung tritt dabei in einem erweiterten 
Sinne in Erscheinung: Nicht nur die Strukturen der Annotation sind Gegen- 
stand der Modellierung und werden als solche auf den Text übertragen, viel- 
mehr werden aus dem Text selbst Strukturen extrahiert, die als Grundlage für 
weitergehende Analysen fungieren. 


3 Perspektiven 


Die Vision einer vollständigen Interoperabilität sämtlicher Forschungsdaten 
mit all ihren Metadaten ist noch lange nicht erreicht. In den letzten Jahren 
wurden jedoch viele wichtige Fortschritte erzielt, wie die Beiträge in diesem 
Band zeigen. Als wichtigste Aufgabe für die Zukunft wird es sich erweisen, die 
entstanden Infrastrukturverbünde langfristig in ihrer Existenz abzusichern und 
dadurch eine konzertierte Weiterentwicklung der Technologien zu gewährleis- 
ten. Auch erweiterte Möglichkeiten der kooperativen Arbeit an den Ressourcen 
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selbst sowie an den empirischen und qualitativen Ergebnissen ihrer Nutzung 
stellen ein wesentliches Desiderat dar. Fiir all das, was in der Vergangenheit 
bereits geleistet worden ist und was zukiinftig noch geleistet werden muss, hat 
Ludwig M. Eichinger mit seiner Tatigkeit am Institut fiir Deutsche Sprache in 
Mannheim wesentliche Grundlagen gelegt. 


| Kooperation und Verbiinde 


Thomas Gloning 

1 Forschungsinfrastrukturen und 
Informationssysteme im Zeichen 
der Digitalisierung: Aspekte der 
Kollaboration und der Nutzer-Einbindung 


Abstract: Mit der Digitalisierung sind weitreichende Veränderungen der germa- 
nistischen Forschung und Lehre verbunden. In diesem Beitrag skizziere ich 
zunächst wesentliche Veränderungen, die sich aus der Verfügbarkeit digitaler 
Daten und Werkzeuge ergeben haben. Ich behandle dann die Frage, wie Infra- 
strukturverbünde zur Gestaltung der Arbeitslandschaft und der Forschungs- 
möglichkeiten beitragen können und wie fachliche Nutzergruppen hierbei pro- 
duktiv eingebunden werden können. 


Keywords: Germanistik, Digitalisierung, Forschungsinfrastrukturen, Nutzer- 
einbindung, CLARIN-D, DARIAH-DE 


1 Einleitung 


In den letzten beiden Jahrzehnten haben sich die Arbeitsbedingungen in vielen 
Bereichen der germanistischen Forschung und Lehre dramatisch verändert. Im 
Zeichen der Digitalisierung sind nun viele Arten und große Mengen von 
Sprach-Daten auch elektronisch verfügbar, z.B. historische Texte, Ton- und 
Videoaufnahmen, gegenwartssprachliche Korpora zu gesprochener, geschrie- 
bener und computervermittelter Sprache. Gleichzeitig sind neue und mächtige 
Werkzeuge für die Erzeugung und die Analyse digitaler Daten verfügbar. Im 
Bereich der wissenschaftlichen Kommunikation, Kollaboration und Präsenta- 
tion dienen Werkzeuge wie E-Mail, Mailinglisten, viele Arten von Social Media 
und Videokonferenztools, aber auch Präsentationsmittel wie PowerPoint und 
seine Alternativen sowie eine Vielzahl weiterer Angebote der Bewältigung un- 


Anmerkung: Für ihre Unterstützung danke ich sehr herzlich den Herausgebern, Henning Lobin, 
Roman Schneider und Andreas Witt, sowie Melanie Grumt Suärez (CLARIN-D). 


Thomas Gloning, Institut für Germanistik, Justus-Liebig-Universität Gießen, D-35394 Gießen, 
E-Mail: thomas.gloning@uni-giessen.de 


8 Open Access. © 2018 Thomas Gloning, publiziert von De Gruyter. Dieses Werk ist 
lizenziert unter der Creative Commons Attribution 4.0 Lizenz. 
https: //doi.org/10.1515/9783110538663-002 
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terschiedlichster wissenschaftlicher Aufgaben. In der akademischen Lehre sind 
digitale Plattformen eine wesentliche Grundlage fiir die Organisation und die 
Zusammenarbeit. Auch die Publikation und Rezeption wissenschaftlicher Lite- 
ratur wird zunehmend durch digitale Angebote ergänzt. 

Mit der Digitalisierung sind neue Formen der Zusammenarbeit und des 
„community building“ verbunden, die zum Teil auf den genannten Kommuni- 
kationswerkzeugen beruhen, aber zum Teil auch durch gemeinsame Interessen 
bedingt sind. Thematisch fokussierte wissenschaftliche Mailinglisten sind 
Beispiele für inzwischen etablierte Formen der gemeinschaftlichen Zusam- 
menarbeit und des wissenschaftlichen Austauschs zu bestimmten Themen 
und Themenfeldern. Aber auch die Abonnements von wissenschaftlichen 
Blogs oder themenspezifischen Twitter-Accounts sind neuartige Formen der 
Gemeinschaftsbildung, die teilweise eigene Spielarten der Vernetzung hervor- 
bringen können. Unterschiedliche Formen des Community Building wurden und 
werden darüber hinaus im Rahmen des Aufbaus von Infrastrukturverbünden 
planvoll betrieben. So haben zum Beispiel die großen Infrastrukturprojekte 
CLARIN-D und DARIAH-DE eigene Formate der Einbindung von Nutzergruppen 
entwickelt und implementiert.! 

Während viele Germanistinnen und Germanisten daneben nach wie vor 
und je nach Forschungsgegenstand und Zielsetzung mit gutem Recht tradi- 
tionelle Methoden der germanistischen Forschung anwenden und keine digita- 
len Ressourcen einsetzen, gehören digitale Daten und Werkzeuge doch zuneh- 
mend zum wissenschaftlichen Alltag. Dabei zeigt sich, dass digitale Sprachdaten 
und Werkzeuge für verschiedene Forschungsfragen in unterschiedlicher Weise 
relevant sind. Wer eine literaturwissenschaftliche Forschungsarbeit zu Rilkes 
fünfter Duineser Elegie im Kontext der bisherigen Rilke-Forschung oder eine 
wissenschaftsgeschichtliche Arbeit über Jacob Grimms Stellung zum Fremd- 
wort schreibt, wird eher traditionelle Verfahren nutzen müssen: Texte lesen, 
Notizen machen, Gliederungsentwürfe schreiben usw. Aber selbst bei einer 
solchen Arbeit werden inzwischen E-Mail, computergestützte Textverarbeitung 
und die Nutzung digitaler Bibliotheksangebote eine wichtige Rolle spielen, 
auch wenn die eigentliche intellektuelle Arbeit vielleicht ohne nennenswerte 
digitale Anteile stattfindet. 

Wer demgegenüber zum Beispiel eine sprachwissenschaftlich-diskursorien- 
tierte Forschungsarbeit zum Wortgebrauch im Flüchtlings- und Migrationsdis- 


1 In CLARIN-D sind dies u.a. die Facharbeitsgruppen: https://www.clarin-d.net/de/fach 
arbeitsgruppen (20.1. 2018). In DARIAH gehören sog. „Working Groups“ dazu: https://www. 
dariah.eu/activities/working-groups-list (20.1. 2018). Aber auch Instrumente wie Befragungen, 
Workshops, Schulungen usw. werden hierfür genutzt. 
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kurs der Jahre 2015-2017 schreibt, der wird um die Nutzung der elektronischen 

Korpora des Instituts fiir deutsche Sprache,* der Berlin-Brandenburgischen 

Akademie der Wissenschaften? und ggf. auch des Leipziger Wortschatzportals* 

nicht herumkommen. Und wer eine literaturwissenschaftliche Arbeit zu Rilke 

im Kontext seiner Zeit in einem ,,Digital Humanities“-Kontext schreiben will, 

wird digitale Textressourcen und entsprechende Tools in sachgemäßer Weise 

verbinden müssen. Im Bereich der Literaturwissenschaften gibt es inzwischen 
eine avancierte digital unterstützte Forschung, exemplarisch sind etwa die 

Arbeiten zu nennen, über die in loser Folge in den „pamphlets“ des Stanford 

Literary Lab berichtet wird.’ In der germanistischen Literaturwissenschaft sind, 

um nur drei Namen zu nennen, etwa die Arbeiten von Fotis Jannidis, Gerhard 

Lauer oder Jan-Christoph Meister zu erwähnen. Diese und andere Literatur- 

wissenschaftlerinnen und Literaturwissenschaftler sind mit zahlreichen For- 

scherinnen und Forschern aus anderen (Teil-)Disziplinen seit 2012 im Verband 

„Digital Humanities im deutschsprachigen Raum“ (DHd) zusammengeschlos- 

sen. Jahrestagungen, zahlreiche Projekte und eine Internetseite mit Blog doku- 

mentieren die Konsolidierung dieser Fachgemeinschaft.® 

Viele neue Forschungsprojekte, die zum Teil durch das BMBF, die DFG oder 
durch Stiftungen in strukturierten Programmen gefördert werden, setzen sich 
zum Ziel, neuartige Nutzungen von digitalen Daten und Werkzeugen für tradi- 
tionelle oder neuartige Fragestellungen zu entwickeln, zu erproben und zu 
evaluieren. Und auch im Rahmen dieser Programme ist die Vernetzung unter 
den Projekten eine wichtige Komponente. 

Vor dem Hintergrund dieser weitreichenden Entwicklungen behandle ich 
nachfolgend - aus einer durchaus persönlichen Perspektive - folgende Frage- 
stellungen und Teilthemen: 

— Wie haben sich Kernbereiche der germanistischen Arbeitslandschaft durch 
die Digitalisierung verändert? Welche (alten und neuen) Formen der Zu- 
sammenarbeit, der „Vergemeinschaftung“ und des „Community Building“ 
sind zu beobachten? (Abschnitt 2) 

— Wie kann man die Landschaft der digitalen Forschungsinfrastrukturen und 
Informationssysteme mit Bezug zur Germanistik, wie sie sich in den letzten 
Jahren und Jahrzehnten entwickelt hat, in ihren Grundzügen charakteri- 


2 http://www.ids-mannheim.de/kl/projekte/korpora.html (20.1. 2018). 

3 https://www.dwds.de/d/korpora (20.1. 2018). 

4 http://wortschatz.uni-leipzig.de/ (20.1. 2018). 

5 https://litlab.stanford.edu/; https://litlab.stanford.edu/pamphlets/ (11. 11. 2017); vgl. Moretti 
(2007, 2013). 

6 https://dig-hum.de/ (11.11. 2017); http://dhd-blog.org (18.1. 2018). 
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sieren? Wie tragen die einzelnen Angebote zu einem systematischen Aus- 
bau der Arbeits- und Forschungsmöglichkeiten im Bereich der Germanistik 
bei? (Abschnitt 3) 

— Welche Perspektiven und Zukunftsaufgaben ergeben sich im Bereich der 
Germanistik, die ja durch eine äußerst vielgestaltige innere Differenzierung 
gekennzeichnet ist, für den weiteren Ausbau von Infrastrukturverbünden 
wie CLARIN-D und DARIAH-DE? (Abschnitt 4) 


2 Kollaborative Arbeitsformen und Formen 
der „Vergemeinschaftung“ in der Germanistik: 
Was ändert sich mit der Digitalisierung? 


Wissenschaft ist auf koordinierte Zusammenarbeit angewiesen. Abhängig von 
ihrem übergeordneten Zweck haben sich Strukturen zum einen in evolutio- 
närer Weise herausgebildet, zum anderen waren und sind sie Resultat von ge- 
zielten Planungsprozessen. Dabei lassen sich mehrere zentrale Funktionskreise 
unterscheiden, die man im Hinblick auf Veränderungen im Rahmen der Digita- 
lisierung betrachten kann. Diese Veränderungen weisen freilich unterschied- 
liche zeitliche Dynamiken in den germanistischen Teildisziplinen auf. Mit der 
Digitalisierung gehen auch neue Entwicklungen in den Formen der „Verge- 
meinschaftung“ einher. Schließlich kann man fragen, ob und inwiefern es 
Konvergenzen und Unterschiede mit anderen Disziplinen, z. B. anderen Einzel- 
philologien oder auch im Rahmen der Sprach-, Literatur- und Kulturwissen- 
schaften gibt. 

Wenn man von einer allgemeinen Tendenz wie der Digitalisierung in einer 
breit differenzierten wissenschaftlichen Disziplin wie der Germanistik spricht, 
dann kann man diese Tendenz in einem ersten Schritt konkretisieren, indem 
man die unterschiedlichen Funktionskreise betrachtet, in denen sich Resultate 
der Digitalisierung zeigen. 

Einen ersten Kernbereich stellen Formen des wissenschaftlichen Austauschs 
dar. Der wissenschaftliche Austausch und die kollegiale fachliche Diskussion 
fand traditionell unter anderem in persönlichen oder telefonisch geführten Ge- 
sprächen, auf Tagungen, über Briefwechsel?” und den Austausch von Sonder- 


7 Viele Gelehrtenbriefwechsel aus dem fachlichen Bereich der Germanistik zeugen davon, wie 
wichtig Briefe für den wissenschaftlichen Austausch zwischen Personen waren, die oftan un- 
terschiedlichen Universitäten wirkten und die aufgrund der geringen Größe von Instituten 
nicht immer einen fachlichen Gesprächspartner an der eigenen Universität hatten. — „Ein 
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drucken statt. Mit der Digitalisierung kamen zunächst neue technisch-mediale 
Formate wie E-Mail, Mailinglisten, Videokonferenzen, Projektmanagement- 
Software oder spezifische Werkzeuge für den Datenaustausch hinzu. Über die 
individuelle Nutzung dieser medialen Angebote hinaus bildeten sich für unter- 
schiedliche Gemeinschaften und Arbeitszusammenhänge evolutionär Kombi- 
nationen heraus oder wurden planvoll zu sinnvollen Konstellationen zusam- 
mengestellt. Prototypisch sind hierfür etwa die Arbeitsinfrastrukturen kleinerer 
und mittlerer Forschungsprojekte, zu denen im Hinblick auf den Austausch 
häufig eine Mailingliste, ein Projektmanagementsystem, ein digitales Reposi- 
torium für gemeinsam genutzte Daten, eine Umgebung für kollaborative Text- 
produktion und eine Videokonferenzumgebung für virtuelle Treffen gehören. 
Zeitlich nur vorübergehend sind etwa die Formen des konferenzbegleitenden 
Twitterns, das über eigene Hashtags organisiert wird und eine parallele, nicht 
an den Raum der Konferenz gebundene Kommunikationswelt eröffnet. Man 
sieht an diesen Beispielen gut, dass mit der koordinierten Nutzung digitaler 
Werkzeuge neue Formen der „Vergemeinschaftung“ und neue Sozialformen 
entstanden sind, denen wir uns unten ausführlicher zuwenden. 

Ein zweiter Funktionskreis bezieht sich auf wissenschaftliche und organi- 
satorische Informationen, zum Beispiel zu geplanten oder stattgefundenen Ta- 
gungen, zu Stellenausschreibungen, zu den gesetzlichen Grundlagen der Wis- 
senschaft, zur Bibliographie des Fachs und seiner Bereiche usw. In der vor- 
digitalen Wissenschaft wurden für diese Zwecke wiederum (Reihen-)Briefe für 
den Austausch verwendet, aber auch in den Fachzeitschriften fanden sich feste 
Rubriken zu Informationen dieser Art. Heute dienen zusätzlich Mailinglisten 
(z.B. www. linguistlist.org), fachliche Portale wie zum Beispiel HSozKult® und 
„Germanistik im Netz“,? fachbibliographische Webangebote wie die IDS-Seite 
„Bibliographien zur Linguistik/Literaturlisten“!° oder eigene Stellenportale für 
die Wissenschaft solchen Zwecken. Ein Problem an diesen Entwicklungen 


Fluch unserer Wissenschaft ist die Isolirung der Fachgenossen und dem sollen doch die Con- 
gresse abhelfen“ schrieb der Islamwissenschaftler Ignaz Goldziher 1894 an seinen Kollegen 
Hartmann (Hanisch 2000: 13), nachdem er ihn in Briefen immer wieder bestärkt hatte, einen 
anstehenden Kongress in Genf zu besuchen. Das Beispiel, das sich gewiss nicht ohne Weiteres 
auf die germanistischen Verhältnisse der Zeit übertragen lässt, zeigt aber doch, dass die Brief- 
wechsel und die gelegentlichen Zusammentreffen auf Kongressen in den vergangenen Jahr- 
zehnten und Jahrhunderten ein wesentliches Mittel des wissenschaftlichen Austauschs waren, 
dabei aber einem noch unbeschleunigten Zeittakt folgten. 

8 http://www.hsozkult.de (H/SOZ/KULT - Kommunikation und Fachinformation für die 
Geschichtswissenschaften); (8.10. 2017). 

9 http://www.germanistikimnetz.de/neuerscheinungen/ (15.1. 2018). 

10 http://www.ids-mannheim.de/service/quellen/biblio.html (8. 10. 2017). 
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könnte man darin sehen, dass es inzwischen in vielen Bereichen keineswegs 
einfach ist, die Übersicht, was für Angebote zur Germanistik und ihren Fachzo- 
nen es gibt, zu bekommen oder zu behalten. Auf dieses Problem sind wieder- 
um spezielle Überblicksangebote bezogen, die den Nutzern diese Übersicht 
verschaffen und aktuell halten sollen. Im Bereich der Altgermanistik könnte 
man hier zum Beispiel das Mediaevum-Portal!! nennen, für den Gesamtbereich 
der Germanistik das von der DFG geförderte Portal „Germanistik im Netz“, 
ein umfangreiches internationales Germanist/-innen-Verzeichnis wird auf der 
Seite des Deutschen Germanistenverbandes angeboten." 

Ein dritter Funktionsbereich ist das Publikationswesen. Die Veröffent- 
lichung von Resultaten der Wissenschaft ist eines ihrer Kerngebote (Weinrich 
1995a, b), gleichzeitig führt die Auffächerung in zahlreiche Disziplinen zu einer 
Vielfalt von spezifischen Publikationskulturen. Die Germanistik ist traditionell 
geprägt von einem zweigleisigen System, das Monographien und Zeitschriften- 
aufsätze gleichermaßen umfasst, wobei diese beiden Veröffentlichungsarten 
unterschiedliche und komplementäre Rollen spielen im Hinblick auf fachliche 
Ziele und die akademischen Karrierewege ihrer Verfasser/-innen. Lehrbücher, 
Handbücher, Bibliographien treten hinzu, darüber hinaus gibt es spezifische 
Publikationsformen, die mit den sprachlich verfassten Gegenständen des Fachs 
zu tun haben: Historische Wörterbücher und kommentierte Texteditionen sind 
vielleicht die prominentesten Beispiele, für beide Bereiche gibt es eine hoch- 
spezialisierte Methodenlehre und -diskussion sowie ein breites Spektrum digi- 
taler Angebote.!* Im Hinblick auf Aspekte der Digitalisierung ist das germanis- 
tische Publikationswesen zur Stunde gleichzeitig durch Aspekte der Beharrung 
und der Innovation gekennzeichnet, deren Verhältnis sich nicht in allgemeiner 
Weise charakterisieren lässt. 

Ein eigener Bereich innerhalb des Publikationswesens sind die Rezen- 
sionen. Sie sind einerseits Teil der Publikationslandschaft, sie sind andererseits 
reflexiv auf wissenschaftliche Publikationen und Fragen der Qualitätssiche- 
rung bezogen. Die beiden Hauptfunktionen von Rezensionen sind das Infor- 
mieren über neue Publikationen und die kritische Beurteilung des jeweiligen 


11 http://www.mediaevum.de (8.10. 2017). 

12 http://www.germanistik-im-netz.de (8.10. 2017). 

13 http://www.germanistenverzeichnis.phil.uni-erlangen.de/ (8. 10. 2017). 

14 http://www.woerterbuchnetz.de (15.1. 2018); https://www.dwds.de (20.1. 2018). Zur digita- 
len Editorik vgl. exemplarisch Bender 2016; Sahle 2013. Vgl. weiter die Angebote des „Institut 
für Dokumentologie und Editorik“ (https://www.i-d-e.de), das dazugehörige Review Journal 
RIDE (http://ride.i-d-e.de; beide 20.1. 2018) sowie das „Magazin für digitale Editionswissen- 
schaften“, das vom Interdisziplinären Zentrum für Editionswissenschaften der FAU Erlangen- 
Nürnberg herausgegeben wird. 
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Werks im Hinblick auf spezifische fachliche Kriterien. Die traditionelle Text- 
form für diese kommunikative Aufgabe ist die Rezension, die im späten 
17. Jahrhundert mit der Entstehung der wissenschaftlichen Zeitschriften auf- 
gekommen ist und dann im 18. Jahrhundert eine erste Blüte erreichte (Habel 
2007). Rezensionen sind eine stabile Komponente der Wissenschaftskommuni- 
kation auch im Bereich der Germanistik, die sich vor allem in den Fachzeit- 
schriften der Germanistik und ihrer Teildisziplinen entfaltet hat. Mit der Digita- 
lisierung wurden, soweit derzeit erkennbar, mehrheitlich die traditionellen 
Darstellungsformen im Umkreis der Rezension im neuen Medium weiter ver- 
wendet. Neuartig sind Rezensionen, die auf digitale Angebote, z.B. Editionen, 
bezogen sind und neue Kriterien der Beurteilung erfordern." 

Der Funktionswandel im Bereich der Literaturversorgung ist in erster Linie 
an den Strukturwandel im Bereich der Bibliotheken, der Verlage, teilweise 
auch der Gesetzgebung, den Strategien des Erwerbs von Konsortial-Lizenzen 
(z.B. DFG-Nationallizenzen) und nicht zuletzt auch Open-Access-Prinzipien 
gebunden. Die meisten Universitätsbibliotheken, aber auch das Institut für 
Deutsche Sprache (IDS) und das „Germanistik im Netz“-Portal betreiben heute 
digitale Publikationsserver und stellen ein breites digitales Literaturangebot 
für die Nutzer/-innen bereit. Bibliotheksnahe Digitalisierungszentren, zum Bei- 
spiel in München oder Göttingen, setzen strategische und mit öffentlichen Mit- 
teln geförderte Programme um, so etwa die Digitalisierung der alten Drucke 
aus dem 16., 17. und 18. Jahrhundert, wie sie in den VD16-, VD17- und VD18- 
Verzeichnissen dokumentiert sind.!° Bei der Retrodigitalisierung und der Ver- 
netzung der Wörterbücher des Deutschen sowie bei vielen digitalen Editionen 
hat das „Trier Center for Digital Humanities“ wesentliche Beiträge geleistet." 
Die Tatsache, dass heute alte Drucke und Handschriften digital verfügbar und 
durch die Erschließung von Metadaten auch systematisch suchbar und auf- 
findbar sind (etwa über die KVK-Suchmaschine),'® stellt einen Quantensprung 
in den Arbeitsbedingungen der sprach- und literarhistorischen Forschung dar, 
den vielleicht nur die Personen angemessen beurteilen und würdigen können, 
die noch mit dem zähen Verfahren der Bestellung eines Mikrofilms per Brief, 


15 Vgl. z.B. die in der vorhergehenden Fußnote genannten Zeitschriften. 

16 www.vdi16.de; www.vd17.de; www.vd18.de (11.11. 2017); von diesen Kurzadressen aus wird 
man jeweils weitergeleitet auf die entsprechenden Katalogstartseiten. 

17 http://kompetenzzentrum.uni-trier.de (20.1. 2018); http://woerterbuchnetz.de (20.1. 2018). 
18 https://kvk.bibliothek.kit.edu (11.11. 2017) mit der Option „Nur digitale Medien suchen“. 
Digitalisate von Handschriften sind u. a. bei www.manuscripta-mediaevalia.de (15.1. 2018) und 
im Handschriftencensus (www.handschriftencensus.de; 15.1. 2018) verzeichnet. Eine systema- 
tische und breite Dokumentation von Angeboten zu historischen Sprachdaten und zu ihren 
Erschließungsmitteln kann an dieser Stelle nicht geleistet werden. 
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der achtwöchigen Wartezeit, der freudig begrüßten Ankunft der Mikrofilm- 
Sendung, dem Ausfüllen der Überweisung für den Repro-Auftrag, den langwei- 
ligen Stunden vor dem Mikrofilm-Rückvergrößerungsgerät usw. vertraut sind. 
Im Hinblick auf historische Daten ist es besonders wichtig, dass viele Texte 
heute nicht nur als Bilddigitalisate, sondern auch als standardisiert erfasste, 
interoperabel nutzbare, maschinell durchsuchbare und bearbeitbare Volltexte 
verfügbar sind. 

Eine weitere wichtige Entwicklung ist die Ablösung der älteren „Sonder- 
sammelgebiete“ durch fachlich spezialisierte Forschungsinformationsdienste, 
mit denen die beauftragen Bibliotheken nicht nur forschungsbezogene (ge- 
druckte und elektronisch verfügbare) Literatur, sondern auch digitale For- 
schungsdaten verzeichnen und teilweise selbst anbieten. Die Dokumentation 
der Angebote erfolgt digital und dynamisch anpassbar in fachlichen Portalen, 
bei der technischen Umsetzung werden avancierte Metadaten-, Linked-Open- 
Data-, Abfrage- und andere Technologien verwendet. Für die germanistische 
Forschung wird der Ende 2017 bewilligte „Fachinformationsdienst Germanis- 
tik“ einschlägig sein, der auch die Arbeiten am Portal „Germanistik im Netz“ 
weiterführt, die germanistische Sprachwissenschaft wird sicherlich auch vom 
„Fachinformationsdienst Linguistik“ und dem Portal „linguistik.de“ profitie- 
ren, dasselbe gilt für die germanistische Literaturwissenschaft und den „Fach- 
informationsdienst Allgemeine und Vergleichende Literaturwissenschaft“.'? 

Von all diesen Entwicklungen ist auch die Hochschul-Lehre im inneren 
Kern betroffen: Die Digitalisierung der Materialien, der Präsentationsweisen, 
der Lektüretexte, der Textproduktion bis hin zur digitalen Verbreitung von Vor- 
lesungen usw. prägt heute viele Bereiche in der Lehre an den Universitäten. 
Hochschuldidaktische Planungen und Konzeptionen müssen folglich die Frage 
nach dem (Nicht-)Einsatz digitaler Ressourcen mit einbeziehen. Digitale Lern- 
plattformen wie StudIP, Ilias oder Moodle sind häufig eingesetzte Umgebungen 
für die Nutzung digitaler Angebote und digital gestützter Verfahrensweisen der 
Zusammenarbeit und der Präsentation. In einem sprach- und literaturbezoge- 
nen Fach wie der Germanistik sind digitale Forschungsmethoden seit vielen 
Jahren auch Gegenstand der Lehre, z.B. im Bereich Korpuslinguistik. 

Freilich sind derzeit noch deutliche Abstufungen im Hinblick auf Art, 
Umfang und Funktion des Einsatzes digitaler Daten, Werkzeuge und Lehr- 
komponenten im weitesten Sinne zu erkennen. Sie hängen zum Teil mit den 
Lehrgegenständen zusammen, teilweise aber auch mit persönlichen Einstel- 


19 FID Germanistik: https://www.ub.uni-frankfurt.de/ssg/dsl.html; FID Allgemeine und Ver- 
gleichende Literaturwissenschaft: https://www.ub.uni-frankfurt.de/projekte/avl.html; FID 
Linguistik: https://www.ub.uni-frankfurt.de/projekte/fid-linguistik.html (alle 15.1. 2018). 
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lungen von Lehrenden. In den verschiedenen germanistischen Teildiszipli- 
nen sind unterschiedliche zeitliche Dynamiken von Aspekten der Digitalisie- 
rung zu beobachten, auch wenn sie insgesamt schwer systematisierbar und 
empirisch derzeit nicht zu belegen sind. So gibt es Fachkulturen, in denen 
Tagungsvorträge eher vorgelesene Manuskripte, andere, in denen sie üblicher- 
weise frei gesprochene Präsentations-Aufführungen sind.” Im Hinblick auf die 
Präferenzen von Papier- vs. PDF-Lesetexten scheint es bei Forscher/-innen, 
Lehrenden und Studierenden unterschiedliche Abschattungen zu geben.?! 

Die Digitalisierung hat auch neue Formen bzw. neue Realisierungsweisen 
der „Vergemeinschaftung“ in der Germanistik hervorgebracht. Traditionelle 
Formen sind zum Beispiel persönliche Netzwerke, die auf institutioneller Zu- 
gehörigkeit, gemeinsamen Interessen oder geteilten Aufgaben beruhen.” 
Temporäre Formen sind zum Beispiel Forschungsprojekte, die nur für den Zeit- 
raum ihrer Durchführung Bestand haben. Im Hinblick auf Fachverbände wie 
den „Germanistenverband“, die „Deutsche Gesellschaft für Sprachwissenschaft“ 
oder die „Gesellschaft für germanistische Sprachgeschichte“ kann man eine 
institutionelle Perspektive einnehmen und Fragen stellen wie die nach den Zie- 
len, der Dauer des Bestehens, der Entwicklung von Mitgliederzahlen oder nach 
dem Profil der Aktivitäten. Aus einer individuellen Perspektive stellt sich z.B. 
die Frage, welche Rolle die Mitgliedschaft für einzelne Wissenschaftler/-innen 
spielt, sei es in wissenschaftlicher Hinsicht, sei es für die berufliche Karriere- 
entwicklung. 

Mit der Digitalisierung sind diese traditionellen Formen der Vergemein- 
schaftung nicht weggefallen, auch Realisierungsformen wie Jahrestagungen 
von Gesellschaften erfreuen sich weiterhin großer Beliebtheit. Aber es sind 
neue Formen auf digitaler Grundlage hinzugekommen, z.B. wenn Fachgesell- 
schaften ihre Mitglieder über eine Mailingliste informieren oder einen regelmä- 
Rigen digital verschickten Newsletter haben. Auch Fachgesellschaften präsen- 


20 Vgl. zu Präsentationen und ihren Vorläufern Lobin (2009), Schnettler & Knoblauch (2007). 
21 Auf der Humanist-List berichteten mehrere Mitglieder auf die Frage nach „sustained reading 
from screen“, also nach dauerhafter Lektüre am Bildschirm, dass sie ihre Lektüre- und Annota- 
tionsumgebung komplett auf digitale Werkzeuge umgestellt haben. Umgekehrt bekunden nicht 
wenige der Studierenden, dass sie lieber „richtige“ Bücher lesen und digitale Textauszüge im 
Hinblick auf die Zugänglichkeit zwar schätzen, sie dann aber ausdrucken um sie zu lesen 
und zu bearbeiten. Die Ausgangsmail zur Umfrage „sustained reading from screen“ auf der 
Humanist-List ist hier archiviert: http://lists.digitalhumanities.org/pipermail/humanist/2017- 
October/015131.html (11.11. 2017). Die Ausgangsseite des Listenarchivs: http://lists.digital 
humanities.org/pipermail/humanist/ (11.11. 2017). 

22 In medialer Hinsicht waren die Gelehrtenbriefwechsel für viele Jahrhunderte ein zentrales 
Werkzeug für den wissenschaftlichen Austausch und die themenzentrierte Vergemeinschaftung. 
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tieren sich über soziale Medien nach außen, sei es über Internetauftritte, 
Facebook-Seiten, Twitter oder eigene Blogs. Dariiber hinaus sind eigene Fach- 
verbände hinzugekommen, die sich auch Fragen der Digitalisierung widmen, 
z.B. die Gesellschaft für Sprachtechnologie und Computerlinguistik (GSCL).? 

Sodann sind neue Formen der Vergemeinschaftung entstanden, die an digi- 
tale Medien gebunden sind. Mailinglisten sind eine der frühen wissenschaft- 
lichen Nutzungsformen der Email-Technologie, die auch heute noch vielfach 
genutzt werden und eigene Nutzungsprofile vor allem in den Bereichen Service/ 
Information, Kollaboration und Kritik/Kontroverse aufweisen.” Digitale Daten- 
austausch-Gemeinschaften wie das von Jost Gippert begründete TITUS-Portal 
(Thesaurus Indogermanischer Text- und Sprachmaterialien) gehören zu den 
frühen Nutzungen digitaler Technologien, die kontinuierlich weiterentwickelt 
und angepasst wurden. Man könnte hier noch viele weitere Entwicklungen an- 
führen, die zeigen, dass digitale Werkzeuge, Daten und Verfahrensweisen den 
Alltag von Wissenschaftler/-innen tiefgreifend verändert haben, dass sie aber 
im Hinblick auf die epistemischen Kernaufgaben in den verschiedenen Teil- 
disziplinen sehr unterschiedliche Rollen spielen. Diese Veränderungen sind im- 
mer wieder auch mit reflexiven Diskussionen verbunden, die sich auf Themen 
wie die Fortschrittsrhetorik des Digitalen, die Verträglichkeit hermeneutisch- 
geisteswissenschaftlicher Fragestellungen mit digitalen Zugriffen oder auch die 
Frage nach mediengeschichtlichen Entwicklungen („Untergang des Buchs“) 
bezogen.” 

Wir wenden uns nun der Rolle von digitalen Forschungsinfrastrukturen 
zu, die als ein Bereich strategischer Wissenschaftsplanung im europäischen 
Zusammenhang gesehen werden müssen. 


3 Infrastrukturangebote und Nutzer-Orientierung 


Die Veränderungen, die im zweiten Abschnitt skizziert wurden, sind zum einen 
auf mehr oder weniger individuelle Formen der Nutzung digitaler Angebote 
zurückzuführen. Ein Wissenschaftler, der einen fachlichen Blog betreibt, eine 


23 http://www.gscl.org (20. 1. 2018). 

24 Vgl. hierzu Bader (2018), Gloning & Fritz (2011). - Einen interessanten quasi-autobiographi- 
schen Beitrag zu Fragen der Akzeptanz digitaler Medien in den frühen 1990er Jahren bietet 
Krappmann 1993. 

25 Vgl. exemplarisch Lobin (2014), Flanders (2009), Deegan & McCarty (2012). McCarty schreibt 
über die Frühgeschichte des humanities computing: „Historically, the computer came to the 
humanities from outside and was received as a foreigner, in ,fear and trembling‘ (Nold 1975), 
as well as with curiosity.“ (McCarty 2012: 8). 
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Wissenschaftlerin, die eine Fachzone mit einem Twitter-Account betreut, eine 

wissenschaftliche Institution, die sich ein Facebook-Profil zulegt, dies sind 

zunächst individuelle Angebote, die so oder anders sein könnten und dem 

Markt der Medienangebote opportunistisch folgen (oder auch nicht). Zum an- 

deren werden Veränderungen aber auch eröffnet durch digitale Infrastruktur- 

angebote, die das Ergebnis von wissenschaftsstrategischen Planungen auf un- 
terschiedlichen Ebenen mit verschiedenen Reichweiten sein können. Man kann 
folgende Ebenen und Reichweiten unterscheiden: 

- eine lokale Ebene (z. B. eine digitale Lernplattform einer einzelnen Univer- 
sität); 

- eine überregionale Ebene (z.B. ein Konsortialvertrag auf Länderebene für 
Lizenzen digitaler Ressourcen); 

- die nationale Ebene (z.B. DFG-Lizenzen, die nationalen Ableger der euro- 
päischen Infrastrukturverbünde); 

- die europäische Ebene (z.B. die Infrastrukturverbünde CLARIN und 
DARIAH); 

- die internationale Ebene (z.B. die Text Encoding Initiative als Grundlage 
für die interoperable, nachhaltige Nutzung digitaler Text-Angebote aus - 
fast - allen Sprachen und Zeitstufen der Überlieferung oder die Kataloge 
der European Language Resources Association”). 


Diese Ebenen-Architektur trägt an manchen Stellen freilich eher zur Verdunke- 
lung wichtiger Zusammenhänge bei, denn schon am Beispiel eines lokalen 
Publikationsservers etwa einer Universitätsbibliothek sieht man, dass die Ini- 
tiative und der Betrieb zwar lokal, die Nutzungsmöglichkeiten über die Ver- 
mittlung der nationalen Kataloge aber international sind. Auch die bibliogra- 
phischen Ressourcen des IDS und seine digitalen Publikationsangebote sind 
auf diese Weise überregional und international auffindbar. 

Die stärker „individualisierten“ Entwicklungen im Bereich der Digitalisie- 
rung der Wissenschaften sind insgesamt nicht leicht überschaubar. Um sie zu 
beantworten, müsste man zum Beispiel wissen, welche Rolle ein ganz alltäg- 
liches Instrument wie die Google-Suchmaschine in den Arbeitslandschaften 
von Wissenschaftler/-innen in vielen Disziplinen spielt. Man weiß, dass Such- 
maschinen auch aus dem wissenschaftlichen Alltag „nicht mehr wegzuden- 
ken“ sind. Aber welche Rolle genau spielen Suchmaschinen in den verschiede- 
nen Fachzonen der Germanistik, wie und wofür werden sie genutzt? Spielt z.B. 
das Ergebnis-Ranking von Suchmaschinen eine Rolle für die Auswahl von 


26 TEI: http://www.tei-c.org (20.1. 2018). 
27 ELRA: http://www.elra.info/en/catalogues (20.1. 2018). 
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Lehrmaterialien, Lektiiretexten (unter dem Diktat knapper Zeit)? Wann wird 
fiir sprachbezogene Fragen Google genutzt, wann die wissenschaftlichen Kor- 
pora? Vergleichbare Fragen kann man in Bezug auf viele andere digitale Werk- 
zeuge und Angebote in der germanistischen Fachzone stellen. 

Im Hinblick auf die Organisation und den Betrieb der Wissenschaft als 
eine Öffentliche Aufgabe ist demgegenüber vor allem die Frage interessant, 
welchen Beitrag die strategisch geplanten und mit öffentlichen Mitteln finan- 
zierten Maßnahmen zur Verbesserung der digitalen Arbeitslandschaft leisten. 
Eine erste Leitfrage, mit der man diese Perspektive konkretisieren kann, zielt 
zunächst darauf, wie man die Landschaft der strategisch geplanten digitalen 
Forschungsinfrastrukturen und Informationssysteme mit Bezug zur Germanis- 
tik, wie sie sich in den letzten Jahren und Jahrzehnten entwickelt haben, in 
ihren Grundzügen charakterisieren kann. Ich kann hier keinen irgendwie gear- 
teten vollständigen Überblick geben, möchte deshalb nur wenige Typen von 
Angeboten charakterisieren. 

Man kann dabei von den Institutionen her denken und zum Beispiel 
fragen, welchen Beitrag Bibliotheken aktuell leisten und zukünftig leisten 
können.?® Digitale Angebote von Bibliotheken umfassen unter anderem 
mehrdimensional erschlossene und durchsuchbare Kataloge, es gibt darüber 
hinaus Meta-Kataloge wie den Karlsruher Verbundkatalog, viele Bibliotheken 
betreiben digitale Publikationsrepositorien und Publikationsserver mit neuen, 
vielfach im Open-Access-Modus veröffentlichten Werken, die systematische 
Retrodigitalisierung älterer Werke ist, wie oben erwähnt, vielfach ebenfalls an 
die Bestände und Leistungen einzelner Bibliotheken gebunden, Fachinforma- 
tionsdienste als Nachfolge-Einrichtungen zu den älteren Sondersammelgebie- 
ten werden von Bibliotheken betreut. Dies ist sicherlich nur ein Ausschnitt aus 
dem Funktionswandel der Bibliotheken im Zeichen der Digitalisierung. Klar ist 
aber, dass Bibliotheken zu den Hauptakteuren bei der Gestaltung der weiteren 
Entwicklung nicht nur der digitalen Literaturversorgung und -erschließung ge- 
hören werden, sondern ggf. auch bei der Erschließung und Betreuung von digi- 
talen Forschungsdaten. 

Man kann aber auch von den Arten von Angeboten her denken und zum 
Beispiel fragen: Wie kommen und kamen einzelne fachliche Portale in die 
Welt? Neben den individuellen Initiativen (z.B. das Bibliotheca Augustana- 
Portal von Ulrich Harsch) gibt es Angebote, die an einzelne Universitäten ge- 
bunden sind oder waren, z.B. das Portal handschriftencensus.de, das zunächst 
ein Marburger Projekt war und inzwischen in die Akademieförderung auf- 


28 Der Funktionswandel der Bibliotheken im digitalen Zeitalter wird von einer breiten reflexi- 
ven Literatur begleitet, exemplarisch etwa Brown (2016). 
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genommen wurde, oder das an der Universitat Duisburg-Essen angesiedelte 
LINSE-Portal.?? Sodann gibt es aber auch die strategisch geplanten und ge- 
förderten Portale wie z.B. „linguistik.de“ oder „germanistikimnetz.de“, die 
Bestandteil der strategischen Entwicklung der Literaturversorgung und der 
Ressourcendokumentation im Rahmen des FID-Programms der Deutschen 
Forschungsgemeinschaft sind. Als Beispiele für stärker thematisch fokussierte 
Angebote kann man das grammatische Informationssystem GRAMMIS?° oder 
das „Informationsportal Gesprachsforschung“*! nennen. 

Eine besonders wichtige Rolle für den Ausbau der Versorgung mit digitalen 
Daten, Werkzeugen und der Erschließung durch Metadaten spielen die Infra- 
strukturverbünde, die im Rahmen von BMBF-Projektförderungen aufgebaut 
wurden. Die beiden großen Infrastrukturverbünde CLARIN-D” und DARIAH-DE? 
sind Teil der europäischen Wissenschaftsplanung, die im Rahmen des über- 
geordneten Horizon2020-Programms”* in sog. ESFRI-Roadmaps festgehalten 
sind.” Ziel ist es, national geförderte Forschungs-Infrastrukturen aufzubauen, 
die in einem europäischen Kontext zusammenarbeiten. Für die europäischen 
ESFRI-Projekte wie CLARIN-EU und DARIAH-EU wurde eine eigene konsortiale 
Rechtsform geschaffen, das „European Research Infrastructure Consortium“ 
(ERIC). Die beiden Initiativen sind inzwischen in fast allen europäischen Län- 
dern vertreten, in den Niederlanden haben CLARIN und DARIAH fusioniert.?¢ 
Die DARIAH-Initiative ist stärker orientiert an Projekten, die Ressourcen ent- 
wickeln, im CLARIN-Kontext spielen verbundene Zentren, die digitale Daten 
und Werkzeuge bereitstellen, die wesentliche Rolle.?” Die Angebote von 
DARIAH-DE und CLARIN-D sind in eigenen Beiträgen dieses Bandes be- 
sprochen. 


29 Linguistik-Server Essen: http://www.linse.uni-due.de (17.1. 2018). 

30 http://grammis.ids-mannheim.de (20.1. 2018); siehe dazu den Beitrag von Dalmas & 
Schneider in diesem Band sowie Schneider & Schwinn (2014). 

31 http://gespraechsforschung.de (20.1. 2018). 

32 https://www.clarin-d.net/de/ (12.11. 2017). 

33 https://de.dariah.eu/ (12. 11. 2017). 

34 http://ec.europa.eu/programmes/horizon2020/ (12. 11. 2017). 

35 http://www.esfri.eu (European Strategy Forum on Research Infrastructures); für die ersten 
Roadmaps: http: //www.esfri.eu/roadmap-archive (12. 11. 2017). 

36 https://www.clariah.nl/ (12. 11. 2017). 

37 Die CLARIN-D-Zentren: https://www.clarin-d.net/de/ueber/zentren. - Beispiele für Werk- 
zeuge: Die „Federated Content Search“ erlaubt die Suche nach Ausdrücken im vernetzten 
Angebot der Zentren: https://www.clarin-d.net/de/auffinden/fcs-suche-in-ressourcen (20. 1. 
2018). — WebLicht ist eine serviceorientierte Umgebung für die Erstellung annotierter Text- 
korpora, in der unterschiedliche Werkzeuge baukastenartig kombiniert werden können: https:// 
www.clarin-d.de/de/sprachressourcen-und-dienste/weblicht (20.1. 2018). 
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Im Hinblick auf die Nutzer/-innen und die vielfaltigen wissenschaftlichen 
Aufgaben, die sie verfolgen, lasst sich eine zweite Leitfrage formulieren: Wie 
tragen die einzelnen digitalen Angebote zu einem systematischen Ausbau der 
Arbeits- und Forschungsmöglichkeiten im Bereich der Germanistik bei? Für die 
Beantwortung dieser Frage können wir uns, wiederum exemplarisch, an ein- 
zelnen zentralen Funktionskreisen wissenschaftlicher Arbeit orientieren. Ich 
will dies an drei germanistischen Beispielen verdeutlichen. 

Der erste Funktionskreis ist auf die Frage bezogen: Wie und mit welchen 
(digitalen) Mitteln kann man wissenschaftliche Forschungsliteratur (in digi- 
taler Form) für eine spezifische Fragestellung ermitteln und beschaffen? Die 
Einklammerung des digitalen Faktors soll hier andeuten, dass weder die digi- 
tale Suche noch das digitale Format von gefundenen Resultaten ein Wert an 
sich ist. Die Erfahrung lehrt aber, dass der erste und primäre Zugang zur Suche 
nach Forschungsliteratur und nach Quellen heute digitale Findmittel sind. Und 
auch im Hinblick auf die Resultate haben manche Nutzer heute eine Vorliebe 
für digital verfügbare, unkompliziert reproduzierbare und leicht „mitnehm- 
bare“ Ressourcen. Dieser Funktionskreis wird in erster Linie „bedient“ durch 
die digitalen Kataloge der Bibliotheken, die heute nicht nur selbstständige Ver- 
öffentlichungen, sondern auch Zeitschriftenartikel und Buchkapitel erschlie- 
ßen, sodann durch fachliche Portale, digitale Versionen von Fachbibliogra- 
phien,” bibliographische Newsletter zu bestimmten Themengebieten und 
durch kommerzielle Angebote wie Google Books, Amazon usw., die wiederum 
eng mit den Resultaten von Suchmaschinen zusammenspielen. Man könnte 
meinen, diese basale Funktion ließe sich „abhaken“. Es bleibt aber das Nadel- 
öhr der Verschlagwortung und der „Übersetzung“ von Forschungsinteressen 
in Abfragekombinationen. Wenn man sich zum Beispiel für die sprachlichen 
Verfahren der Gestaltung von literarischen Figuren interessiert: Welche 
Deskriptoren sind einschlägig? Wenn man sich für Lehrbücher als Gegen- 
stände linguistischer Forschung interessiert: Wie kann man die Masse der 
Lehrbücher trennen von den Studien, die Lehrbücher untersuchen? So bleiben 
derzeit, auch jenseits der Anleitungen zum Bibliographieren, Unsicherheiten 
und Unwägbarkeiten, denen sich beispielsweise interdisziplinäre Ansätze 
zwischen Informationswisssenschaft und Informatik zum „Semantic Web“ 
widmen. 


38 Z.B. Bibliographie der deutschen Sprach- und Literaturwissenschaft: http://www.bdsl- 
online.de; Bibliography of Linguistic Literature: http://www.blldb-online.de; Angebote der 
Bibliothek des Instituts für deutsche Sprache: http://www1.ids-mannheim.de/bibliothek 
(16.1. 2018). 
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Der zweite Funktionskreis bezieht sich auf Quellen und Sprachdaten fiir 
eine spezifische Fragestellung: Wie und mit welchen Mitteln kann man rele- 
vante Quellen und textuelle oder mediale Sprachdaten und ggf. multimodale 
Daten fiir die Bearbeitung einer wissenschaftlichen Fragestellung ermitteln 
und beschaffen? Im Hinblick auf literarische Quellen stellen zunächst digitale 
Bibliothekskataloge das Mittel der Wahl dar. Im Hinblick auf Sprachdaten un- 
terschiedlicher Art ist das „Virtual Language Observatory“ ?? (VLO) auch für 
deutschsprachige Angebote ein reichhaltiges Verzeichnis, bei dem sich Such- 
facetten wie „Language = German“ kombinieren lassen mit Suchwörtern wie 
z.B. „teacher“, die dann etwa zu Gesprächsaufnahmen im „Forschungs- und 
Lehrkorpus Gesprochenes Deutsch“ “*° des Instituts für Deutsche Sprache 
führen, in denen eine der Gesprachsrollen ein Lehrer oder eine Lehrerin ist. 
Kombiniert man „Language = German“ mit einem Suchwort wie „Frauenstimm- 
recht“, dann gelangt man zu entsprechenden Texten aus der ersten Frauenbewe- 
gung, die im „Deutschen Textarchiv“ * der Berlin-Brandenburgischen Akademie 
der Wissenschaften angeboten werden. Das VLO ist also ein Werkzeug, mit 
dem sich digitale Daten und Tools ganz unterschiedlicher Anbieter mit Hilfe 
von Suchfacetten ermitteln lassen, die auf reichhaltige und komplex struktu- 
rierte Metadaten bei der Verschlagwortung der Ressourcen zugreifen. 

Ein dritter Funktionskreis bezieht sich auf die Frage, ob es für eine wissen- 
schaftliche Problemstellung bereits (etablierte, bewährte) digitale Bearbei- 
tungsszenarien gibt und wie sie ggf. dokumentiert sind. Und wenn es ent- 
sprechende Bearbeitungsszenarien gibt: Was sind und wie findet man ggf. 
taugliche digitale Daten und digitale Werkzeuge, was sind bewährte Formen 
der koordinierten Nutzung solcher Ressourcen für eine bestimmte wissen- 
schaftliche Fragestellung? Nun könnte man einerseits sagen, dass jede Prob- 
lemstellung eigene methodische Entscheidungen erfordert. Auf der anderen 
Seite gibt es aber z.B. bei der sprachwissenschaftlichen Materialauswertung 
und vielfach auch im heuristischen Vorfeld von Untersuchungen solche (ele- 
mentaren) Fragen wie: Wo und wie kann man ermitteln, welche Wortbildun- 
gen im Umkreis von „Flucht“ im Jahr 2017 im öffentlichen Diskurs verwendet 
wurden? Oder: Welche Rolle spielen Partizipial-Attribute in Zeitungstexten? 
Wie kann man in großen Korpora überhaupt systematisch nach grammatisch- 
syntaktischen Strukturen suchen? Für solche Aufgaben gibt es im Rahmen von 


39 https://vlo.clarin.eu (16.1. 2018) sowie Van Uytvanck, Stehouwer & Lampen (2012). 

40 http://agd.ids-mannheim.de/folk.shtml (16.1. 2018). 

41 http://www.deutschestextarchiv.de (16.1. 2018). Im VLO werden Ressourcen mit stabilen 
Adressen angegeben, z.B. http://hdl.handle.net/11858/00-203Z-0000-002E-72FE-4 für einen 
der Texte zur Frauenstimmrechtsbewegung im Deutschen Textarchiv (16.1. 2018). 
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Korpusanfragesprachen durchaus bewährte Routinen und Vorgehensweisen. 
Sie sind nach meiner Einschätzung bislang aber noch nicht breit genug doku- 
mentiert.“? Es gehört deshalb mit zu den Aufgaben der nächsten Jahre, wissen- 
schaftliche Nutzungsszenarien für digitale Daten und Werkzeuge breit und in 
Bezug auf unterschiedliche Einsatzbereiche in Lehre und Forschung zu be- 
schreiben (dazu unten mehr). 


4 Infrastrukturverbünde und Nutzereinbindung: 
Perspektiven und Aufgaben aus einer 
germanistischen Sicht 


Welche Perspektiven und Zukunftsaufgaben ergeben sich im Bereich der Ger- 

manistik für den weiteren Ausbau von Infrastrukturverbünden wie CLARIN-D 

und DARIAH-DE? Aus einer Nutzerperspektive*? kann man folgende wichtige 

Möglichkeiten sehen, wie Wissenschaftler/-innen sich an der weiteren Gestal- 

tung und dem weiteren Ausbau von Infrastrukturangeboten beteiligen können: 

a) Beitrag zur Bedarfsanalyse: Welche (Arten von) Daten und Werkzeugen 
fehlen im Bestand oder sollten ausgebaut werden? 

b) Beitrag zur Bewertung von vorhandenen Angeboten im Hinblick auf die 
Bedürfnisse von fachlichen Nutzergruppen, hierzu gehören z.B. auch Fra- 
gen der Gebrauchstauglichkeit (usability)** von Angeboten oder die Frage, 
wie Ressourcen auf wissenschaftliche Fragestellungen zu beziehen sind. 

c) Beitrag zur Ressourcendokumentation und -akquise: Wo gibt es nützliche 
Ressourcen (Daten, Werkzeuge), die sich sinnvollerweise in eine Infra- 
struktur eingliedern lassen? Wie kann man Kolleg/-innen ermuntern, 


42 Mehrere Beispiele für unterschiedliche Dokumentationsformen: https://www.youtube.com/ 
user/CLARINGermany (16.1. 2018). 

43 Andere Perspektiven sind etwa die Fragen der technischen Einrichtung von Infrastruktur- 
maßnahmen, der Aspekt der dauerhaften Finanzierung und der Verstetigung von Angeboten 
oder auch die Frage der Koordination und der Abstimmung verschiedener Initiativen, die in 
unterschiedlicher Weise zur digitalen Arbeitslandschaft im Bereich der Germanistik beitra- 
gen. — Diese Themen und Fragestellungen sind und waren in vielen Arten von Infrastrukturen 
immer schon virulent, vgl. Edwards et al. (2009). 

44 Die Usability-Forschung ist inzwischen nicht mehr zu überblicken. Zeitschriften wie 
das „Journal for Usability Studies“ enthalten immer wieder auch Beispiele für Usability- 
Untersuchungen zu digitalen Angeboten, z. B. Brown & Hocutt (2015). Aber auch Einzelstudien 
können Anregungen zur Methodik geben, z.B. Schulz (2016). 


Forschungsinfrastrukturen und Informationssysteme —— 27 


Daten und Werkzeuge fiir die nachhaltige Nutzung im Rahmen einer In- 
frastruktur bereitzustellen? 

d) Beitrag zur Dissemination von Angeboten: Wie und mit welchen Mitteln 
kann man digitale Angebote und ihre Nutzungsweisen in den unterschied- 
lichen Fachzonen der Germanistik“ bekannt(er) machen? 

e) Wie lassen sich fachlich nützliche Angebote, die nicht Bestandteil von 
Infrastrukturen sind, sinnvoll mit den Infrastrukturangeboten verbinden 
oder immerhin für die Nutzergruppen dokumentieren? 46 

f) Beitrag zur zielgruppenorientierten Dokumentation von typischen Anwen- 
dungsweisen digitaler Ressourcen (Daten, Werkzeuge) für wissenschaft- 
liche Problemstellungen. Zu den Zielgruppen gehören nicht nur Forschende 
auf allen Qualifikationsstufen, sondern auch die Studierenden. 


Den Aufgabenbereich (f) halte ich für besonders wesentlich, denn er hängt mit 
dem innersten funktionalen Kern von Infrastrukturen zusammen: Die Infra- 
strukturen sollen dazu beitragen, dass Wissenschaftler und Wissenschaftlerin- 
nen ihre Aufgaben in Forschung und Lehre gut erfüllen und digitale Daten und 
Werkzeuge hierfür in sachdienlicher Weise einsetzen können. Die Dokumenta- 
tion von Nutzungsszenarien ist eine Gelenkstelle, die das Infrastruktur-Ange- 
bot mit seinen Nutzungsmöglichkeiten verbindet. 

Für diese Zukunftsaufgaben sind im Bereich der Germanistik drei wichtige 
Bezugspunkte und Rahmenbedingungen zu berücksichtigen, die ich hier zu- 
nächst nenne und im Folgenden genauer erläutere: zum einen (i) die äußerst 
breite fachliche Differenzierung in der Germanistik, zum zweiten (ii) die im 
Hinblick auf Voraussetzungen und Interessen sehr unterschiedlichen Nutzer- 
gruppen und schließlich (iii) die Frage, wie und mit welchen Informationsmit- 
teln und Darstellungsstrategien man diese heterogene(n) Nutzergruppe(n) er- 
reichen kann. 


45 Eine interessante Frage ist dabei auch, wann, wie, in welcher Weise und in welchem Umfang 
die Nutzung digitaler Daten und Ressourcen in das Selbstverständnis einer fachlichen Gemein- 
schaft „hineinwächst“. Vgl. z.B. die Beiträge von Maitz, Nübling und Bubenhofer & Scharloth in 
Maitz (2012). 

46 Bei einem gemeinsamen Workshop des DFG-Netzwerks „Diskurse digital“ und der CLARIN- 
D-Facharbeitsgruppe „Deutsche Philologie“ im Dezember 2017 haben u.a. Noah Bubenhofer 
und Simon Meier-Vieracker darauf hingewiesen, dass vor allem in der Forschung zu aktuellem 
Social Media-Sprachgebrauch auch Techniken benötigt werden, die tagesaktuell angewendet 
werden können und die bislang nicht im Bestand von Infrastrukturangeboten sind, z.B. die 
Nutzung der APIs von Angeboten wie Twitter, Facebook oder YouTube. Werkzeuge dafür gibt 
es etwa im Umkreis der R-Bibliothek. Der schon ältere Gegensatz zwischen der Infrastruktur- 
strategie und eher offenen, dynamischen „digital ecosystems“ wird in einem Beitrag von Blanke, 
Kristel & Romary (2016) beleuchtet. 


28 — Thomas Gloning 


(i) Die Fachzone der Germanistik ist durch eine äußerst breite fachliche 
Differenzierung gekennzeichnet, deren Teile in manchen Hinsichten verbunden, 
in anderen Hinsichten aber fachlich sehr weit voneinander entfernt sind.“ 
Sprache und Literatur, die darauf bezogenen Didaktiken, gegenwartssprach- 
liche und historische Bezüge, die unterschiedlichen Beschreibungsebenen von 
der Phonetik bis zur Pragmatik, die unterschiedlichen Varietäten des Deut- 
schen von den Dialekten über Fachsprachen bis hin zu Gruppensprachen wie 
dem Kiezdeutsch und viele andere gegenstandsbezogene, theoretische und me- 
thodisch motivierte Unterscheidungen tragen zur Vielfalt der germanistischen 
Forschung und ihrer Lehrgebiete bei. Wenn jemand den Fremdwortanteil in 
den Werken von Simon Dach (17. Jh.) untersucht, ist das ein grundsätzlich 
anderer Untersuchungsbereich als etwa eine Untersuchung zu bestimmten 
syntaktischen Besonderheiten in ausgewählten Dialekten des Deutschen oder 
zu vielen literaturwissenschaftlichen Themen, obwohl alle diese Themen un- 
term Dach der Germanistik beheimatet sind. Sowohl im Hinblick auf Bedarfs- 
analysen als auch im Hinblick auf die Dokumentation von Nutzungsszenarien 
für digitale Daten und Werkzeuge empfiehlt sich eine hohe Granularität, also 
die Berücksichtigung kleiner Fachzonen innerhalb der großen Germanistik. 

(ii) Neben der Vielfalt in der fachlichen Organisation muss man eine weitere 
Differenzierung im Hinblick auf Nutzergruppen mit unterschiedlichen Zielen 
und Voraussetzungen berücksichtigen. Auch in der Germanistik gibt es eine 
sehr aktive Gruppe, die man als „Digital Humanities-Avantgarde“ bezeichnen 
könnte. Diese Avantgarde kümmert sich unter anderem darum, den Bereich 
der Möglichkeiten, der durch digitale Daten und Werkzeuge eröffnet wird, im 
Hinblick auf neue und neuartige Forschungsperspektiven zu erweitern. Dem- 
gegenüber gibt es im Bereich der Germanistik auch den „Alltagsbetrieb“ einer 
digital unterstützten Germanistik. Dazwischen gibt es Ansätze, die darauf zielen, 
auch traditionelle disziplinäre Fragestellungen mit digitalen Daten und Werk- 
zeugen anders und ggf. besser zu bearbeiten. Zwischen den beiden Polen der 
Avantgarde und der Alltagsforschung gibt es einen breiten Übergangsbereich. 
Viele germanistische Konferenzvorträge, die ich gehört habe, behandelten im 
Kern traditionell motivierte Themen, die aber mit Hilfe digitaler Daten und 
Werkzeuge, etwa des „Deutschen Textarchiv“ oder der IDS-Korpora, auf durch- 
aus innovative Weise bearbeitet wurden. Solche Arbeiten sind eine gute Grund- 
lage, um die (erfolgreiche) computergestiitzte Untersuchung wissenschaftli- 
cher Fragestellungen im Zusammenhang von typisierten Nutzungsszenarien zu 
dokumentieren. 


47 Die (fehlende) Einheit des Faches „Germanistik“ ist seit vielen Jahren ein Thema der inner- 
fachlichen Diskussion. 
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(iii) Damit stellt sich auch die dritte Frage, wie man typisierte Nutzungs- 
szenarien fiir die unterschiedlichen Nutzergruppen am besten dokumentiert. 
Im Rahmen der CLARIN-D-Facharbeitsgruppe „Deutsche Philologie“ haben wir 
unter anderem mit Schritt-für-Schritt-Anleitungen, mit Video-Screencasts und 
mit sog. Video-Experten-Interviews gute Erfahrungen gemacht. Dabei folgen 
wir jeweils einem thematischen Viererschema: Wir gehen (1) von einer wissen- 
schaftlichen Fragestellung oder einem Typ von Fragestellung aus, die bzw. der 
kurz vorgestellt wird, wir stellen sodann (2) die für die Bearbeitung genutzten 
Daten und Werkzeuge vor und erläutern, wo man sie finden kann, wir beschrei- 
ben dann (3) die koordinierte Anwendung der Werkzeuge und der Daten im 
Hinblick auf die Fragestellung (ggf. in einer Schritt-für-Schritt-Beschreibung), 
zuletzt (4) stellen wir die im Beispiel erzielten Resultate dar und beziehen sie 
zurück auf die Ausgangsfragestellung. Wenn es bereits Publikationen gibt, die 
auf dem besprochenen Nutzungsszenario beruhen, nennen wir diese Publika- 
tionen ebenfalls. Auf dem oben erwähnten CLARIN-D-YouTube-Kanal sind 
Beispiele für Screencasts und für den etwas aufwändigeren Typ des Experten- 
Interviews zu sehen. 


5 Rückblick 


Mit der Digitalisierung sind erhebliche Veränderungen auch in der wissen- 
schaftlichen Arbeitslandschaft von Germanist/-innen in den ganz unterschied- 
lichen germanistischen Fachzonen verbunden. In diesem Beitrag habe ich 
versucht, einige wesentliche Veränderungen zu skizzieren, die sich aus der 
Verfügbarkeit digitaler Daten und Werkzeuge für den Alltag von Wissen- 
schaftler/-innen, insbesondere ihre Forschungs- und Lehrpraxis ergeben. Im 
Fokus stand sodann die Frage, wie Infrastrukturangebote zur produktiven 
Gestaltung der Arbeitslandschaft und der Forschungsmöglichkeiten beitragen 
können und wie Nutzergruppen bzw. -vertretungen dazu beitragen können, 
Infrastrukturangebote mit den wissenschaftlichen Bedürfnissen ihrer Nutzer/ 
-innen abzustimmen. 
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1 Einleitung 


Die Sprachwissenschaft hat im 20. Jahrhundert eine rasante Entwicklung hin- 
sichtlich ihrer theoretischen Durchdringung und der Breite ihrer Anwendungs- 
gebiete durchlaufen. Aufbauend auf den bahnbrechenden Arbeiten der Jung- 
grammatiker in der zweiten Hälfte des 19. Jahrhunderts, die sich auf Fragen 
der diachronen Sprachwissenschaft, speziell des Lautwandels, konzentrierten 
und zur Rekonstruktion früherer Sprachzustände (,,Protosprachen“) die histo- 
rischvergleichende Methode entwickelte, nahm der europäische (de Saussure 
1916) und amerikanische (Bloomfield 1914; Sapir 1921) Strukturalismus mit 
Beginn des 20. Jahrhunderts die synchrone Sprachwissenschaft und die Er- 
forschung von grammatischen Systemen insgesamt in den Blick. 

In der zweiten Hälfte des 20. Jahrhunderts, entwickelte sich die generative 
Transformationsgrammatik zu einem der führenden Paradigmen der Sprach- 
wissenschaft, dessen biologische und kognitionswissenschaftliche Grund- 
annahmen zu einer Universalgrammatik sich nicht nur auf die Erforschung 
von Einzelsprachen auswirkte, sondern auch neue Forschungsmethoden in 
verschiedenen Teilgebieten der Sprachwissenschaft stimulierte, wie etwa zum 
Erst- und Zweitsprachenerwerb, zur Sprachverarbeitung und zur mathema- 
tischen Modellierung von Sprache. 

Gleichzeitig rückte das generative Programm Chomskys (Chomsky 1957) 
mit intuitiven Sprecherurteilen von Muttersprachler/-innen einen neuen 
Datentyp als empirische Grundlage für linguistische Analysen in den Vorder- 
grund. Die sich daraus ergebenden Schwierigkeiten und erforderlichen metho- 
dischen Standards bei der Datenerhebung rückten erst allmählich in das Be- 
wusstsein der Fachdisziplin (Schütze 1996), die in Deutschland u.a. durch den 
Tübinger Sonderforschungsbereich zum Thema Linguistische Datenstrukturen: 
Theoretische und empirische Grundlagen der Grammatikforschung (1999-2009) 
thematisiert wurden und zur Etablierung einer Fachkonferenz mit dem Titel 
Linguistic Evidence führten.! 

Parallel zu dieser Methodenreflexion in der theoretischen Sprachwissen- 
schaft haben seit den 1980er Jahren in vielen Teildisziplinen der Sprachwissen- 
schaft experimentelle und statistische Verfahren zunehmend an Bedeutung 
gewonnen. Wichtige Impulse bei dieser Entwicklung gingen dabei von der 


1 Die Bemühungen des Tübinger SFB 441 um eine nachhaltige Datenmodellierung und 
-archivierung führten zu einer neuen Entwicklung beim Förderformat von Sonderforschungs- 
bereichen, in denen nun INF Teilprojekte als Instrument für ein nachhaltiges Management von 
Forschungsdaten etabliert wurden. Das INF Teilprojekt im Tübinger SFB 441 hatte in dieser 
Hinsicht Modellcharakter für die DFG und war das erste Teilprojekt dieser Art in einem DFG 
geförderten Sonderforschungsbereich. 
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Computerlinguistik (Klavans & Resnik 1997), der Psycholinguistik und der 
Phonetik und Phonologie, aber in den letzten Jahren auch von der Syntax 
(Bresnan 2016; Sprouse & Hornstein 2012) und von der Semantik und Pragma- 
tik (Noveck & Sperber 2004; Meibauer & Steinbach 2011) aus. In der Computer- 
linguistik wurden statistische Verfahren zuerst in der automatischen Sprach- 
erkennung (Jelinek 1997), dann aber auch bei der automatischen Analyse 
geschriebener Sprache, etwa beim Wortartentagging (Church 1988; Schmid 
1994; Brants 2000), beim Parsing (Collins 2003) und bei der maschinellen 
Übersetzung (Brown et al. 1990) eingesetzt. Inzwischen sind statistische Ansätze 
und maschinelle Lernverfahren in der Computerlinguistik zu etablierten Ver- 
fahren geworden. In der Psycholinguistik haben sich eine breite Palette expe- 
rimenteller Verfahren wie Reaktionszeit- und Augenbewegungsmessungen, 
neurophysiologische Untersuchungsmethoden wie Elektroenzephalogrammen 
(EEG) und Ereigniskorrelierte hirnelektrische Potentiale (EKPs) sowie bild- 
gebende Verfahren mit Hilfe von Positronenemissions-Tomographie (PET) und 
von funktioneller Kernspinresonanz-Tomographie (fMRI) etabliert und zu einer 
interdisziplinären Zusammenarbeit zwischen der Linguistik, der Kognitions- 
psychologie und den Neurowissenschaften geführt. Experimentelle Methoden 
in der Sprachwissenschaft haben sich ebenfalls auf der Schnittstelle von 
Signalverarbeitung, Phonetik und Phonologie unter dem Begriff Laboratory 
Phonology (Pierrehumbert, Beckman & Ladd 2000) als eine neuer methodischer 
Ansatz zur Erforschung von Lautsystemen unter Berücksichtigung ihrer physi- 
kalischen und physiologischen Basis etabliert. 


2 Linguistische Forschungsdaten und digitale 
Sprachressourcen 


Der Einsatz experimenteller und statistischer Methoden hat die empirische 
Fundierung linguistischer Forschung und den Stellenwert linguistischer Daten 
neu in den Blick genommen und zu einer großen Vielfalt von Forschungs- 
daten? geführt. 


2 In Abhängigkeit von einzelnen Fachdisziplinen oder Wissenschaftszweigen bezeichnet der 
Begriff Forschungsdaten ganz unterschiedliche Datentypen. Es ist das Verdienst der Rates für 
Informationsinfrastrukturen (RfID, sich um eine fächerübergreifende Begriffklärung bemüht 
zu haben. (Rat für Informationsinfrastrukturen (RfII) 2014) definiert Forschungsdaten als 
„.. Daten, die im Zuge wissenschaftlicher Vorhaben entstehen, z.B. durch Beobachtungen, 
Experimente, Simulationsrechnungen, Erhebungen, Befragungen, Quellenforschungen, Auf- 
zeichnungen, Digitalisierung, Auswertungen.“ 
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Forschungsdaten, d.h. Daten, die fiir wissenschaftliche Untersuchungen 
erhoben werden bzw. als Resultat solcher Untersuchungen entstehen, haben 
traditionell fiir die sprachwissenschaftliche Forschung eine wichtige Rolle ge- 
spielt. Beispielhaft genannt seien hier groß angelegte Datenerhebungen zur 
Dialektologie, wie sie von Wenker zwischen 1876 und 1888 für die Erfassung 
von Dialekten des Deutschen erhoben wurden und bis heute im Deutschen 
Sprachatlas der Universität Marburg archiviert werden. Wurden Forschungsda- 
ten traditionell als Printmaterialien veröffentlicht und in Archiven oder Biblio- 
theken den jeweiligen Fachwissenschaften zur Verfügung gestellt, eröffnen 
sich durch die digitalen Medien neue Arten der Datenerhebung und der Daten- 
zugänge, erfordern aber gleichzeitig neue Kompetenzen beim Umgang mit Da- 
ten und neue Wege bei der nachhaltigen Datenarchivierung. Auf diesem Hin- 
tergrund ist bei der Erstellung von digitalen Forschungsdaten ein umsichtiges 
Datenmanagement im Vorfeld eines Forschungsvorhabens von großer Bedeu- 
tung. Daher erwarten inzwischen nationale und internationale Förderorganisa- 
tionen in allen Wissenschaftszweigen einen Datenmanagementplan als obliga- 
torischen Bestandteil eines Förderantrags, in dem Forschungsdaten generiert 
werden sollen. Zum Datenmanagement gehört die Beachtung von Standards 
und von in der Fachdisziplin bewährten Methoden und Praktiken bei der Da- 
tenenkodierung, bei der Erstellung von Metadaten und der Datenarchivierung 
ebenso wie, im Falle von Datenerhebungen mit Informant/-innen, die Wahrung 
von Persönlichkeitsrechten und anderen ethischen Fragen. 


2.1 Linguistische Forschungsdaten 


Linguistische Forschungsdaten zeichnen sich im Vergleich zu anderen Fach- 
disziplinen durch eine große Vielfalt unterschiedlicher Datentypen aus. Zu 
diesen Datentypen gehören Informantenbefragungen für Studien zur Gram- 
matik und zur Sprachvariationsforschung; Korpusdaten, häufig angereichert 
durch linguistische Annotationen, als empirische Grundlage zum Sprach- 
gebrauch oder als Trainingsmaterial für statistische Sprachmodelle und für 
überwachte maschinelle Lernverfahren in der Computerlinguistik; Sprachauf- 
nahmen für phonetische und phonologische Studien sowie sprachliche Stimuli 
für experimentelle Verfahren in der Psycholinguistik. Werden experimentelle 
Analyseverfahren auf linguistische Forschungsprimärdaten angewendet und 
die dabei erzielten Ergebnisse ausgewertet, so entstehen dadurch neue sekun- 
däre Forschungsdaten, die in weiteren Untersuchungen als Referenzmateria- 
lien dienen können. Für eine solche Nachnutzung ist die Provenienz dieser 
Sekundärdaten von entscheidender Bedeutung. Datenprovenienz bedeutet, 
dass die eingesetzten Analyseverfahren, einschließlich der dabei eingesetzten 


Digitale Forschungsinfrastrukturen für die Sprachwissenschaft —— 37 


Software und den verwendeten Parametern, die zur Generierung der Sekun- 
därdaten geführt haben, protokolliert werden und als technische Metadaten 
mit den Sekundärdaten verknüpft werden. 


2.2 Digitale Sprachdaten 


Die Digitalisierung und die rasante Entwicklung des Internets im Übergang 
vom 20. ins 21. Jahrhundert hat diese methodischen Entwicklungen zusätzlich 
verstärkt und beschleunigt. Durch die Digitalisierung liegen nun Sprachdaten 
in einer zuvor nie gekannten Größenordnung vor. Dadurch hat sich der Um- 
fang von Referenzkorpora für Einzelsprachen in den letzten 25 Jahren drama- 
tisch verändert. So hatte das British National Corpus (Burnard & Aston 1998), 
das zwischen 1991 und 1994 entstanden ist, einen Umfang von 100 Millionen 
Wörtern. Das deutsche Referenzkorpus (Kupietz et al. 2010) mit gegenwärtig 
31,68 Milliarden Wörtern (Stand 8.3. 2017), das am Institut für Deutsche 
Sprache entstanden ist und kontinuierlich erweitert wird, und sog. Webkorpora, 
d.h. Textsammlungen von Internetdaten, die durch Web-crawling-Verfahren 
zu digitalen Korpora in Milliardengröße zusammengeführt werden, zeigen diese 
Entwicklung exemplarisch auf. Gleichzeitig entstehen mit Sprachdaten aus so- 
zialen Netzwerken und online Foren gänzlich neue Textsorten, die für die lin- 
guistische Forschung hohe Relevanz haben. 

Mit Hilfe von Retrodigitalisierungsverfahren wie der optischen Zeichen- 
erkennung lassen sich Druckerzeugnisse in digitale Formate von Bilddigitali- 
saten und von Volltexten überführen und der wissenschaftlichen Forschung 
zur Verfügung stellen. Retrodigitalisierungsverfahren werden in der Sprach- 
wissenschaft vor allem zur Erforschung der Sprachvariation, des Sprachwan- 
dels und der Sprachevolution eingesetzt. Exemplarisch sei hier das Deutsche 
Textarchiv (DTA) (Geyken et al. 2011) genannt, ein umfangreiches historisches 
Korpus für das Neuhochdeutsche mit Texten ab 1700, das als Sammlung von 
Bilddigitalisaten und von linguistisch aufbereiteten Volltexten zur Verfügung 
steht. Das DTA enthält wissenschaftliche Texte, Gebrauchsliteratur und Belle- 
tristik und umfasst gegenwärtig 2642 Werke 613.312 digitalisierte Seiten und 
146.891.533 fortlaufende Wortformen (Stand: Mai 2017). Die Texte sind mit Hilfe 
computerlinguistische Analyseverfahren auf der Wortebene in ihrer Ortho- 
grafie normalisiert, lemmatisiert und mit morpho-syntaktischen Wortklassen 
annotiert. Diese linguistischen Annotationen ermöglichen es, das DTA für dia- 
chrone linguistische Untersuchungen zu nutzen. In meinen Studien zur histori- 
schen Syntax des Verbalkomplexes im Deutschen (Hinrichs 2016) und zur mor- 
phologischen Produktivität von Adjektiven des Deutschen aus diachroner 
Perspektive (Hinrichs 2017) nutze ich die DTA Daten und deren linguistische 
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Annotationen als Datengrundlage. In meinen Untersuchungen zur morpholo- 
gischen Produktivität von Adjektiven habe ich außerdem von den umfängli- 
chen Korpusstudien von (Eichinger 1982) zu Adjektivbildungen im Deutschen 
profitiert.? 

Bei digital verfügbaren Sprachdaten, wie sie durch das Internet in großem 
Umfang zur Verfügung stehen, handelt es sich in vielen Fällen zunächst um 
unstrukturierte Daten. Um sie für die linguistische Forschung nutzbar zu 
machen, sind in der Regel umfangreiche Vorverarbeitungsschritte erforderlich. 
Dazu gehören die Erkennung von Satzgrenzen sowie die Tokenisierung, die 
Lemmatisierung, die Wortartenklassifikation und die morphologische Analyse 
von lexikalischen Einheiten. Mit computerlinguistischen Verfahren lassen sich 
diese Verarbeitungsschritten inzwischen mit hinreichend hoher Präzision reali- 
sieren. Allerdings arbeiten die Verfahren nicht vollkommen fehlerfrei, was bei 
der Benutzung derartig aufbereiteter Quellen stets berücksichtigt werden muss. 

Die Verfügbarkeit digitaler Sprachdaten hat die empirischen Grundlagen 
der Sprachwissenschaft nicht nur in quantitativer Hinsicht verändert. Sie hat 
darüber hinaus neue Methoden der linguistischen Modell- und Theoriebildung 
ermöglicht. Die Lexikografie und die historische Sprachwissenschaft seien hier 
exemplarisch erwähnt. Fragen der Sprachevolution lassen sich auf der Grund- 
lage digitaler Datensätze mit Hilfe von bioinformatischen Verfahren der Phylo- 
genese untersuchen (Gray, Drummond & Greenhill 2009). In der Lexikografie 
können Lexikoneinträge mit Belegstellen aus digitalen Korpora verknüpft wer- 
den, um authentische Verwendungsbeispiele und -kontexte von Wörtern als 
Wortprofile (Kilgarriff et al. 2004; Geyken, Didakowski & Siebert 2008) online 
zur Verfügung zu stellen. Dieser Ansatz wird im Digitalen Wörterbuch der 
deutschen Sprache (DWDS) auf der Grundlage eines umfangreichen, balan- 
cierten Textkorpus umgesetzt (Klein & Geyken 2010). 

Ein weiterer innovativer Ansatz in der Computerlexikografie besteht in der 
Modellierung von lexikalischer Semantik mit Hilfe von Graphstrukturen, wie 
sie im Princeton WordNet (Miller et al. 1990) und im FrameNet (Baker, Fill- 
more & Lowe 1998) für das Englische vorbildhaft umgesetzt worden sind. Ana- 
loge digitale lexikalische Ressourcen stehen für zahlreiche weitere Sprachen 
zur Verfügung, u.a. für das Deutsche mit den Ressourcen GermaNet (Henrich & 
Hinrichs 2010) und der FrameNet Ressource Salsa (Erk et al. 2003). 


3 Ludwig M. Eichinger stützt sich in seinen Studien zu den Adjektiven des Deutschen bereits 
in den 1970er Jahren auf digitale Textkorpora. Er gehört damit zu den Pionieren in der germa- 
nistischen Linguistik und in der Allgemeinen Sprachwissenschaft im deutschsprachigen 
Raum, die in ihrer Forschung digitale Korpusdaten verwenden. 
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3 Anforderungen an eine Forschungsinfrastruktur 
fiir die Sprachwissenschaft und fiir 
sprachbasierte Forschung in den digitalen 
Geisteswissenschaften 


Digital verfügbare Daten ermöglichen im Gegensatz zu traditionellen Druck- 
erzeugnissen neue Formen des Datenzugangs und erfordern daher auch im 
Wissenschaftskontext neue Werkzeuge im Umgang mit Daten, speziell zur 
Datenrecherche und Datenanalyse sowie zur Visualisierung von Recherche- 
ergebnissen. Derartige Softwarewerkzeuge sind in der Regel disziplinenspezi- 
fisch und erfordern fachnahe Entwicklungskompetenz. Sie sind außerdem eng 
mit den zugrundeliegenden digitalen (Forschungs-)Daten verknüpft, um einen 
gemeinsamen Zugang zu den Daten und zugehörigen Softwarewerkzeugen zu 
ermöglichen. Um den Zugang zu Daten und Werkzeugen möglichst einfach zu 
gestalten, werden solche digitale Angebote zunehmend als Webapplikationen 
realisiert, deren Zugang bei lizenzrechtlich geschützten Daten oder Werkzeu- 
gen durch ein Authentifizierungs- und Autorisierungsprotokoll unterstützt 
wird. Dies trifft in besonderer Weise auf Sprachressourcen zu, die im Gegensatz 
zu vielen anderen Typen von Forschungsdaten in der Regel nicht frei von Rech- 
ten Dritter sind. Betroffen sind insbesondere Urheber- und verwandte Schutz- 
rechte sowie Persönlichkeitsrechte. Erschwerend kommt hinzu, dass die Rechte- 
inhaber i.d.R. nicht Teil der Fachdisziplinen sind. Bei der Nutzung digitaler 
Sprachdaten sind daher urheberrechtliche Fragen stets zu berücksichtigen. 
Das betrifft insbesondere Datenquellen, die dem Copyright unterliegen und 
daher nicht frei weitergegeben werden dürfen. In der wissenschaftlichen Praxis 
führt dies häufig zu lizenzrechtlichen Zugangsbeschränkungen und erfordert 
elektronische Identifizierungs- und Autorisierungsverfahren. 

Der digitale Zugang zu Forschungsdaten und Forschungssoftware ermög- 
licht neben der Einzelforschung das kollaborative Forschen und das Teilen 
von Forschungsdaten, das durch entsprechende Kommunikationssoftware 
und virtuelle Speicherlösungen unterstützt wird und zur Entwicklung von 
virtuellen Forschungsumgebungen geführt hat. Virtuelle Forschungsumgebun- 
gen bezeichnen innovative Forschungsplattformen, in denen einschlägige Da- 
tenressourcen, Verarbeitungs- und Visualisierungswerkzeuge sowie Kommuni- 
kations- und Speicherlösungen für das kollaborative Forschen und für das 
Teilen von Forschungsdaten, häufig netzbasiert, institutionsübergreifend und 
gff. auch über Fächer- und Ländergrenzen hinaus bereitgestellt werden. 

Neben den neuen Formen des Zugangs zu digitalen (Forschungs-)daten 
sind neue Fachkompetenzen bei der Erstellung und Kuration von Daten erfor- 
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derlich, um deren Nachnutzung gewährleisten zu können. Diese Kompetenzen 
schließen u.a. eine genaue Kenntnis von fachlich einschlägigen Datenformaten 
ein, inklusive von Standards und Empfehlungen zur Datenmodellierung, die 
von Organisationen wie der International Standards Organisation (ISO), dem 
W3 Konsortium und im Fall von textbasierten Daten von der Text Encoding 
Initiative (TEI) verabschiedet worden sind. Diese Informationen sind besonders 
für Einzelforscher/innen und Nachwuchswissenschafler/-innen wichtig, die 
häufig (noch) nicht über die nötige Erfahrung in diesen Bereichen verfügen. 

Die oben genannten Kompetenzen bei der Erstellung von digitalen For- 
schungsdaten, bei der Entwicklung von fachnaher Forschungssoftware und bei 
der zumeist fachnahen Entwicklung von Informationsangeboten für wissen- 
schaftliche Daten haben nicht nur zu neuen Berufsfeldern von Datenmanager/ 
-innen geführt. Sie gehen auch deutlich über die eher generischen, fachüber- 
greifenden Informationsangebote von Bibliotheken und Rechenzentren hinaus. 
Daher sind in vielen Wissenschaftszweigen digitale Forschungsinfrastrukturen 
entstanden, um die notwendigen Informationsangebote zu entwickeln und 
nachhaltig anzubieten. Digitale Forschungsinfrastrukturen sind daher nicht 
nur ein auf die Fachdisziplin spezialisiertes Archiv für Forschungsdaten und 
lizensierte Daten, sondern als Forschungsinfrastruktur zugleich Ort und Werk- 
zeug, um Forschung zu ermöglichen, kollaboratives Forschen zu unterstützen 
und fachnahe bzw. fachspezifische Forschungssoftware nachhaltig anzubieten. 
In Fachdisziplinen, in denen Forschungsdaten besonders vielfältig sind und 
daher eine große Bandbreite von Fachkompetenzen abdecken müssen wie im 
Fall der Sprachwissenschaft (vgl. Abschnitt 2), sind Forschungsinfrastrukturen 
nicht als zentrales Datenzentrum organisiert, sondern als ein Netzwerk von 
ortsverteilten Daten- und Kompetenzzentren, die jeweils unterschiedliche Spe- 
zialisierungen haben und in der Summe das Fach in hinreichender Breite abzu- 
decken vermögen. 

Der Wissenschaftsrat betont den Entwicklungsbedarf im Bereich der Infra- 
strukturen für die Geistes- und Sozialwissenschaften und ihre Rolle als ,,... von 
tradierenden und Fachinformation bevorratenden Hilfseinrichtungen zu Inku- 
batoren für neue und innovative wissenschaftliche Fragestellungen aufgrund 
von Forschungsdaten“ ebenso wie die Notwendigkeit, ,,... der Infrastrukturent- 
wicklung für die Geistes- und Sozialwissenschaften in Deutschland mehr Auf- 
merksamkeit zu widmen“ (Wissenschaftsrat 2011: 8) um die internationale 
Anschlussfähigkeit der Forschung in den beteiligten Fachdisziplinen zu ge- 
währleisten. 

Der Aufbau von nachhaltigen Forschungsinfrastrukturen in allen Wissen- 
schaftszweigen gehört zu den obersten Zielen der Europäischen Kommission 
seit dem 7. und 8. Rahmenprogramm und wird im aktuellen Horizon 2020 
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Rahmenprogramm mit hoher Priorität und mit flankierenden Maßnahmen wie 
der Einrichtung einer European Open Science Cloud weiter verfolgt. Die damit 
verbundenen Planungs- und Steuerungsprozesse hat die Europäische Kommis- 
sion seit 2002 in die Hände des European Strategy Forum for Research Infra- 
structures (ESFRI) gelegt. Das ESFRI Board hat mit der ESFRI Roadmap 2006 
erstmals einen Entwicklungsplan für den Aufbau von Forschungsinfrastruktu- 
ren vorgelegt, der alle Wissenschaftsbereiche umfasst und der kontinuierlich 
fortgeschrieben wird. In einem kompetitiven Auswahlverfahren wurden mit 
den Initiativen CLARIN (Hinrichs & Krauwer 2014) und DARIAH (Blanke et al. 
2011) zwei Forschungsinfrastrukturen für die Geistes- und Sozialwissenschaften 
in die erste ESFRI Roadmap aus dem Jahr 2006 aufgenommen, die bis 2015 
Gültigkeit hatte. Auf der aktualisierten ESFRI-Roadmap aus dem Jahr 2016 
werden CLARIN und DARIAH als sog. ESFRI Landmarks geführt, d.h. als 
Forschungsinfrastrukturen, deren Aufbau schon weit fortgeschritten ist und 
die herausragende Serviceangebote für ihre Fachdisziplinen bereitstellen. 


4 CLARIN: eine europäische Infrastruktur für 
die Geistes- und Sozialwissenschaften 


4.1 ESFRI Roadmap und CLARIN ERIC 


Die Common Language Resources and Technology Infrastructure (CLARIN) 
ist eine paneuropäische Forschungsinfrastruktur für die Geistes- und Sozial- 
wissenschaften mit gegenwärtig über zwanzig Daten- und Kompetenzzentren 
in Europa und Nordamerika. Die CLARIN-Datenzentren stellen in der Summe 
ein umfangreiches, multilinguales Angebot an sprachbezogenen Forschungs- 
daten, digitalen Sprachdaten und digitalen Diensten für die akademische 
Forschung zur Verfügung. 

Um die CLARIN-Forschungsinfrastruktur auf europäischer Ebene langfris- 
tig zu etablieren, hat CLARIN als eine der ersten ESFRI-Initiativen einen Antrag 
auf Einrichtung eines European Research Infrastructure Consortium (ERIC) 
gestellt. CLARIN bedient sich damit der juristischen Rechtsform, die von der 
Europäischen Kommission für den Betrieb von Forschungsinfrastrukturen 
eigens geschaffen wurde (COUNCIL REGULATION (EC) No 723/200922) und 
die inzwischen breite Akzeptanz seitens der nationalen Stakeholder gefunden 
hat. Das CLARIN ERIC wurde am 29. Februar 2012 durch eine Ratsentscheidung 
der Europäischen Kommission offiziell eingerichtet. Das CLARIN ERIC hat ge- 
genwärtig (Stand: Mai 2017) neunzehn Mitglieder mit den Ländern Bulgarien, 
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Deutschland, Dänemark, Estland, Finnland, Griechenland, Italien, Lettland, 
Litauen, Niederlande, Norwegen, Österreich, Polen, Portugal, Schweden, Slo- 
wenien, Tschechien, Ungarn sowie die Niederländische Sprachunion als trans- 
nationaler Organisation. Als Beobachter sind Frankreich und Großbritannien 
am CLARIN ERIC beteiligt. Das Rückgrat der CLARIN-Infrastruktur besteht aus 
einem offenen Netzwerk von geographisch verteilten Datenzentren, die durch 
eine gemeinsame technische Infrastruktur verbunden sind und die sich regel- 
mäßig dem externen Zertifizierungsprozess des Data Seal of Approval (Dillo & 
De Leeuw 2014) unterziehen. 


4.2 Die nationale Forschungsinfrastruktur CLARIN-D 


In Deutschland beteiligt sich das CLARIN-D Netzwerk (Hinrichs & Trippel 2017; 
www.clarin-d.eu) mit gegenwärtig zehn zertifizierten CLARIN-Zentren an der 
CLARIN-Forschungsinfrastruktur. Die nationale Koordination des CLARIN-D- 
Netzwerks erfolgt durch das CLARIN-D-Koordinationsbüro an der Universität 
Tübingen. Die CLARIN-D-Zentren verteilen sich auf neun verschiedenen Stand- 
orte in Deutschland: das Institut für Deutsche Sprache in Mannheim, das Zen- 
trum Sprache der Berlin-Brandenburgische Akademie der Wissenschaften in Ber- 
lin sowie die Universitäten Duisburg-Essen, Hamburg, Leipzig, LMU München, 
Stuttgart und Tübingen. Ein weiteres CLARIN-D-Zentrum befindet sich am Max- 
Planck Institut (MPI) für Psycholinguistik in Nimwegen. Weitere wissenschaft- 
liche Einrichtungen und Universitäten in Deutschland, darunter das LOEWE- 
Zentrum an der Universität Frankfurt, haben bereits Interesse geäußert, dem 
CLARIN-D-Zentrenverbund als zertifiziertes Datenzentrum beizutreten. 

Der CLARIN-D-Zentrenverbund stellt sprachwissenschaftliche Forschungs- 
daten und digitale Sprachdaten in großem Umfang zur Verfügung. Es handelt 
sich dabei um gegenwartsbezogene und historische Korpusdaten geschriebener 
und gesprochener Sprache, multi-modale Daten, annotierte Daten, digitale 
Wörterbücher und Wortnetze, Sprachvariationsdaten, Archive bedrohter Spra- 
chen, virtuelle Kollektionen von Sprachdaten sowie Forschungsprimärdaten 
von Einzelforschenden und Forschungsverbünden. Dazu gehören das in Ab- 
schnitt 2.2 erwähnte Deutsche Referenzkorpus (DeReKo), das Deutsche Text- 
archiv (DTA) sowie Korpora gesprochener Sprache des Bayerischen Archivs 
für Sprachsignale (BAS), des Instituts für Deutsche Sprache und des Hambur- 
ger Zentrums für Sprachkorpora (HZSK) als Sprachressourcen der CLARIN-D- 
Zentren in Hamburg, Mannheim und München. 

Syntaktisch annotierte Textkorpora, sog. Baumbanken, wurden ursprüng- 
lich als Trainingsdaten für statistische Modelle in der Computerlinguistik ent- 
wickelt, werden inzwischen aber auch in der empirischen Grammatikforschung 
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und in der Korpuslinguistik genutzt. Fiir das Deutsche stellen die CLARIN-D- 
Zentren in Saarbriicken, Stuttgart und Tiibingen mit der TIGER Baumbank und 
den Tübinger Baumbanken TüBa-D/Z, TüPP/D-Z und TüBa-D/S zum geschrie- 
benen und gesprochenen Deutsch die derzeit meistgenutzten Baumbanken 
zum Gegenwartdeutschen zur Verfügung. Mit der Webapplikation TiiNDRA 
(Martens 2013) bietet das CLARIN-D-Zentrum in Tübingen außerdem eine 
Recherche- und Visualisierungsplattform für Baumbanken an, in denen gegen- 
wärtig Baumbanken für mehr als fünfzig verschiedenen Sprachen, darunter 
auch klassische Sprachen wie das Lateinische und Griechische, zugänglich 
sind. 

Das CLARIN-D-Angebot an digitalen Wörterbüchern schließt das Projekt 
Deutscher Wortschatz (Quasthoff & Richter 2005) am CLARIN-D-Zentrum 
Leipzig, das deutsche Wortnetz GermaNet am CLARIN-D-Zentrum Tübingen 
und das Digitale Wörterbuch der deutschen Sprache (DWDS) am CLARIN-D- 
Zentrum an der BBAW Berlin ein. 

Obwohl Forschungsdaten und digitale Sprachdaten zum Deutschen ver- 
ständlicherweise eine besondere Rolle bei den Ressourcen der CLARIN-D- 
Zentren ausmachen, stellen die CLARIN-D-Zentren auch Sprachdaten zu wei- 
teren Einzelsprachen und Sprachfamilien zur Verfügung, u.a. das DOBES 
Archiv für bedrohte Sprachen des CLARIN-D-Zentrums am MPI Nimwegen. 

Die Forschungsinfrastruktur CLARIN-D möchte den gesamten Lebens- 
zyklus von sprachbasierten Forschungsdaten und digitalen Sprachdaten 
unterstützen, indem es drei Kernangebote und damit verbundene Kompeten- 
zen anbietet. Diese Kernangebote beziehen sich auf das Auffinden, Aus- 
werten sowie Aufbereiten und Aufbewahren von Text- und Sprachdaten 
unterschiedlichster Datentypen und Provenienz.* 

Unter Auffinden versteht CLARIN-D die Bereitstellung von Sprachres- 
sourcen mit dem Ziel, sie einer breiten Fachöffentlichkeit leicht zugänglich 
zu machen. Dies schließt die webbasierte Suche in standardkonformen Meta- 
daten ebenso ein wie die Suche in den Sprachdaten und deren Annotationen. 
Zum Auffinden von Sprachressourcen stellt CLARIN das Virtual Language 
Observatory (VLO; van Uytvanck, Stehouwer & Lampen 2012) mit gegen- 
wärtig über 900.000 Metadateneinträgen (Stand September 2016) bereit, in 


4 Mit dem Datenlebenszyklus ist der zyklische Prozess beim Umgang mit Daten gemeint, der 
aus der Datengenerierung, der Datenaufbereitung, der Datenanalyse und der Datenarchivierung 
und -veröffentlichung besteht. Durch die Nachnutzung von Daten können neue Forschungs- 
daten entstehen, die die genannten Arbeitsschritte ebenfalls durchlaufen müssen und zu einem 
insgesamt zyklischen Prozess im Umgang mit Daten führen. Für eine hilfreiche Definition des 
Begriffs Datenlebenszyklus siehe Rat für Informationsinfrastrukturen (RfII) (2014: Anhang A). 
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dem die Nutzenden mit Hilfe einer Facettensuche gezielt nach digital verfiig- 
baren Sprachdaten und -werkzeugen suchen können, die fiir ihr jeweiliges 
Forschungsvorhaben relevant sind. 

Fiir die Suche in den von den CLARIN-D-Zentren bereit gestellten Sprach- 
ressourcen stehen spezialisierte, webbasierte Recherchewerkzeuge zur Ver- 
fiigung, die mit Hilfe von Abfragesprachen die gezielte Suche nach Einzel- 
wortern, Kollokationen, Phrasen und/oder syntaktischen Konstruktionen 
ermöglichen. Webbasierte Suchfunktionen dieser Art stehen u.a. für das 
Deutsche Textarchiv, für die Sprachkorpora des IDS und für die Saarbrücker 
Textkorpora zur Verfügung. Es handelt sich dabei im Einzelnen um die Such- 
werkzeuge DiaCollo (zur diachronen Kollokationsanalyse) und die linguisti- 
sche Suchhilfe DDC für das Deutsche Textarchiv, die COSMAS-II,,ep und KorAP 
Suchschnittstellen für das Deutsche Referenzkorpus und das CQPweb, das vom 
CLARIN-D-Zentrum Saarbrücken verwendet wird. Dadurch dass die CLARIN- 
Zentren durch eine gemeinsame technische Infrastruktur miteinander vernetzt 
sind, können die Sprachressourcen auch zentrenübergreifend nach relevanten 
Daten durchsucht werden. Dafür bietet CLARIN eine föderierte Inhaltssuche 
(engl.: federated content search) an, in denen Sammlungen von Sprachdaten, 
die in verschiedenen Repositorien archiviert sind, parallel und repositorien- 
übergreifend abgefragt und die Suchergebnisse in einem gemeinsamen Ergeb- 
nis aggregiert werden können. 

Unter Auswerten versteht CLARIN-D die Vielzahl an Werkzeugen, die den 
Forschenden zur Annotation und zur Analyse der Daten zur Verfügung gestellt 
werden. Hierbei können sowohl die von CLARIN-D angebotenen Sprach- 
ressourcen als auch eigene Daten der Nutzenden analysiert und durch eigene 
Annotationen angereichert werden. Für die manuelle Annotation bietet 
CLARIN-D Werkzeuge und virtuelle Forschungsumgebungen an, die auf spe- 
zifische Typen von Sprachdaten spezialisiert sind. Textuelle Sprachdaten 
können mit Hilfe der virtuellen Forschungsumgebung WebAnno (Yimam & 
Gurevych 2013) annotiert werden. Dabei können die zu bearbeitenden Daten 
bei Bedarf von mehreren Annotator/-innen genutzt und kollaborativ annotiert 
werden. Für multi-modale Sprachdaten stehen die Werkzeuge ELAN (Auer et al. 
2010) und EXMERaLDA (Schmidt 2004) zur Verfügung, die es erlauben, Sprach- 
und Videoaufnahmen zu transkribieren, zu alignieren und zu annotieren. 

CLARIN-D stellt neben Werkzeugen zur manuellen Annotation auch auto- 
matische Annotationswerkzeuge für Sprachdaten mit Hilfe von computer- 
linguistischen Verfahren zur Verfügung. Die dafür benötigten computer- 
linguistischen Werkzeuge, u.a. Tokenisierer, Lemmatisierer, morphologische 
Analyseprogramme, Wortartentagger, Parser und Eigennamenerkenner, wer- 
den u.a. von den CLARIN-D-Zentren in Berlin, München, Leipzig, Stuttgart 
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und Tiibingen bereitgestellt. In der virtuellen Forschungsumgebung WebLicht 
(Hinrichs, Hinrichs & Zastrow 2010) werden diese Werkzeuge in einer gemein- 
samen, webbasierten Benutzeroberfläche zusammengeführt. WebLicht erlaubt 
es, Sprachressourcen durch mehrschichtige Annotationsebenen anzureichern. 
Dazu werden die einzelnen computerlinguistischen Werkzeuge zu Verarbei- 
tungsketten zusammengefiigt und die Interoperabilitat zwischen den Werkzeu- 
gen durch ein gemeinsames Textenkodierungsformat sichergestellt. Am Ende 
einer solchen Verarbeitungskette steht ein mit linguistischen Informationen 
angereichertes Textkorpus, das in Form eines XML-Dokuments weiter online 
analysiert, visualisiert oder heruntergeladen werden kann. WebLicht bietet 
eine Reihe vordefinierter Verarbeitungsketten an; Nutzende können mit Hilfe 
eines benutzerfreundlichen drag-and-drop Mechanismus aber auch eigene Ver- 
arbeitungsketten definieren und ausführen. 

Fiir die automatische Alignierung von Sprachdaten und deren Transkrip- 
tionen hat das CLARIN-D-Zentrum in Miinchen die Webapplikation WebMAUS 
(Strunk, Schiel & Seifart 2014) entwickelt. Mit Hilfe der grafischen Benutzer- 
oberfläche von WebMAUS können Forschende Dateien mit Sprachaufnahmen 
und die dazugehörigen Transkriptionen hochladen, die von WebMAUS auto- 
matisch aligniert werden. Die von WebMAUS alignierten Daten können dann 
bei Bedarf auf der Grundlage der Transkriptionen mit Hilfe von WebLicht um 
weitere Annotationsebenen angereichert werden. 

Alle CLARIN-D-Annotationswerkzeuge müssen dem Forschungsstand 
entsprechend weiterentwickelt und gewartet werden, um die angebotenen 
Services an den aktuellen Stand der Wissenschaft anzupassen. Zusätzlich wird 
das bestehende Angebot in enger Absprache mit den von CLARIN-D adressier- 
ten Fachwissenschaften um weitere Softwarewerkzeuge kontinuierlich ergänzt. 

Unter Aufbereiten und Aufbewahren versteht CLARIN-D das Verfügbar- 
machen von Forschungsdaten. Zur Datenaufbereitung stellt CLARIN-D dem 
Forschungsstand entsprechende Handreichungen, Expertisen und Konver- 
tierungswerkzeuge zur Verfügung, die kontinuierlich aktualisiert und erweitert 
werden. Forschende können ihre Daten und zugehörige Metadaten in einem 
der CLARIN-D-Repositorien ablegen. 

Um Forschende bei der Nutzung der CLARIN-Infrastrukturangebote zu un- 
terstützen, stellen die CLARIN-D-Zentren verschiedene Beratungsdienste zur 
Verfügung. Das CLARIN-D-Zentrum in Hamburg koordiniert eine Beratungs- 
plattform (Lehmberg 2014), die individuelle Anfragen zu CLARIN-D-Ressourcen, 
virtuellen Forschungsumgebungen, Werkzeugen und Diensten mit Hilfe eines 
Ticketsystems an Expert/-innen in den fachlich einschlägigen CLARIN-D wei- 
terleitet. Im Netz verfügbare Screencasts, Online-Tutorien und FAQ-Listen, 
die in die CLARIN-D-Beratungsplattformen integriert sind, stellen über den 
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individuellen Nutzersupport hinausgehende Informationsangebote dar. Das 
CLARIN-D-Zentrum am IDS Mannheim bietet mit dem Legal Helpdesk (Ketzan & 
Kamocki 2012) allgemeine Informationen in Bezug auf ethische und juristische 
Aspekte bei der Erstellung und Nutzung von Forschungsdaten und digitalen 
Sprachressourcen an. 

Als wertvolle Informationsquelle zu best-practise Richtlinien und fiir 
Sprachressourcen relevante Enkodierungsstandards haben Forschende Zugang 
zum CLARIN-D User Guide (Herold & Lemnitzer 2012), einem praktischen Leit- 
faden fiir die Erstellung neuer digitaler Sprachdaten und fiir die Anpassung 
und Integration existierender Sprachressourcen in die CLARIN-D-Infrastruktur. 

Der Leitfaden adressiert u.a. die Empfehlungen der Deutschen Forschungs- 
gemeinschaft zu datentechnischen Standards und Tools bei der Erhebung von 
Sprachkorpora, an deren Erstellung Expert/-innen aus den CLARIN-D-Zentren 
beteiligt waren. 


4.3 Nutzungszahlen und beteiligte Fachdisziplinen 


Da die CLARIN Forschungsinfrastruktur Sprachressourcen und -dienste anbietet, 
bilden Forschende aus dem Bereich der Sprachwissenschaft einen natiirlichen 
Nutzerkreis. Andererseits sind sprachbezogene Ressourcen und Dienste auch 
fiir weitere geistes- und sozialwissenschaftliche Fachdisziplinen von hoher 
Relevanz, fiir die sprachliche Daten eine wichtige empirische Grundlage dar- 
stellen. Dies trifft in besonderer Weise fiir Forschende im Bereich der Digital 
Humanities zu, einer Forschungsrichtung, die digitale Ressourcen und daten- 
basierte Methoden verwendet, um neue Antworten auf zentrale Fragen ihres 
Fachs zu geben oder ganzlich neue Forschungsfragen zu bearbeiten. Die 
konstant große Resonanz bei einschlägigen nationalen und internationalen 
Fachkonferenzen und die stark ansteigende Anzahl von einschlägigen Stu- 
diengängen und Studienangeboten unterstreicht die wissenschaftliche Pro- 
duktivität und die Attraktivität der Digital Humanities. Um die CLARIN-D 
Forschungsinfrastruktur an den Bedarfen der adressierten Fachdisziplinen 
auszurichten, kooperieren die CLARIN-D Zentren mit Facharbeitsgruppen, 
denen gegenwärtig mehr als zweihundert Fachwissenschaftler/-innen aus der 
Sprach-, Kognitions-, Geschichts- und Politikwissenschaft angehören. Im Be- 
reich der Sprachwissenschaft engagieren sich Forschende aus der Allgemeinen 
Sprachwissenschaft, der Quantitativen Linguistik, der Germanistik, der Anglis- 
tik, der Romanistik, der Slawistik, der Phonetik und Phonologie, der Computer- 
linguistik und der Psycholinguistik in den CLARIN-D Facharbeitsgruppen. 
Das CLARIN-D Angebot wird von zahlreichen Einzelforschenden und For- 
schungsverbünden genutzt. Dies ist unter anderem an den Kooperationspro- 


Digitale Forschungsinfrastrukturen fiir die Sprachwissenschaft — 47 


jekten abzulesen, die CLARIN-D Zentren mit anderen Institutionen unterhalten. 
Zusammengenommen kooperieren die zehn CLARIN-D Zentren gegenwärtig 
mit 462 externen Forschungsprojekten, die sich auf insgesamt 35 Fachdiszipli- 
nen erstrecken. Der Schwerpunkt bei den beteiligten Fachdisziplinen liegt da- 
bei in den Geistes- und Sozialwissenschaften, erstreckt jedoch auch auf die 
Verhaltens- und Naturwissenschaften, speziell auf die Neurowissenschaften 
und die Informatik. Die CLARIN-D Kooperationspartner beschränken sich da- 
bei nicht nur auf Universitäten, Hochschulen und außeruniversitäre For- 
schungseinrichtungen in Deutschland und im deutschsprachigen Raum. Die 
deutschsprachigen Ressourcen von CLARIN-D spielen weltweit für die Aus- 
landsgermanistik eine wichtige Rolle. Besonders erwähnenswert ist dabei die 
Tatsache, dass sich die Nutzung der CLARIN-D Infrastruktur nicht nur auf die 
Forschung beschränkt. So werden die Annotationswerkzeuge, die durch die 
virtuelle Forschungsumgebung WebLicht bereitgestellt werden, auch für die 
universitäre Lehre eingesetzt, um das Lehrangebot im Bereich Grammatik 
durch die digitalen Angebote zu erweitern. 

Um die Nutzung von CLARIN-D Ressourcen für die Geistes- und Sozialwis- 
senschaften abschätzen zu können, sammelt CLARIN-D Daten über die Anzahl 
der registrierten Wissenschaftler/-innen von CLARIN-D-Sprachressourcen 
und über die Nutzung von webbasierten CLARIN-D-Diensten. Bisher wurden 
die CLARIN-D-Sprachdaten von mehr als 33.000 Wissenschaftler/-innen aus 
2.421 akademischen Institutionen aus dem In- und Ausland genutzt (Stand: 
April 2017). Für die webbasierten CLARIN-D-Dienste wurden im Zeitraum von 
2014 bis April 2017 insgesamt 3.190.949 Aufrufe gezählt. Diese Nutzerstatistiken 
zeigen, dass die CLARIN-D-Forschungsinfrastruktur in vielfältiger Weise von 
einer großen Anzahl von Forschenden intensiv genutzt wird. 


5 Schlussbemerkungen und Ausblick 


Ich komme abschließend zum Ausgangspunkt meiner Überlegungen zurück. 
Die Vielfalt und Bedeutung empirischer und experimenteller Forschungsdaten 
unterstreicht die Relevanz von Forschungsinfrastrukturen für die Sprach- 
wissenschaft. Aus der Sicht anderer geisteswissenschaftlicher Disziplinen wird 
auf die Linguistik häufig als besonders gutes Beispiel für den Umgang mit 
wissenschaftlichen Daten verwiesen. Auf diesem Hintergrund werden Infra- 
strukturangebote für die Sprachwissenschaft eine wichtige und in der Zukunft 
noch wichtigere Säule für das Fach bilden. 
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3 Interoperabel und partizipativ 


Digitale Forschungsinfrastrukturen in den Geisteswissen- 
schaften am Beispiel von DARIAH-DE und DARIAH-EU 


Abstract: DARIAH baut seit 2006 in Europa und seit 2011 in Deutschland eine 
digitale Forschungsinfrastruktur fiir die Geistes- und Kulturwissenschaften auf. 
Im Zentrum der Entwicklung der kommenden Jahre steht im nationalen Kontext 
die Uberfiihrung des Projekts DARIAH-DE hin zu einer Organisation und auf 
europäischer Ebene die Verstetigung des im Jahre 2014 gegründeten DARIAH- 
ERIC als architecture of participation unter Beteiligung der Fachcommunitys. 
Der Aufsatz beleuchtet die Entwicklungen von DARIAH und untersucht 
die historisch gesehen kurze Geschichte des Instruments Forschungsinfra- 
strukturen - eine wissenschaftliche Innovation des 20. Jahrhunderts - in den 
Geistes- und Kulturwissenschaften. 


Keywords: Forschungswerkzeuge, Interoperabilität, Kooperatives Modell, 
Vernetzung 


1 Einleitung 


Die Digitalisierung der Gesellschaft ist ein anhaltender Prozess, der auch in 
den Geisteswissenschaften voranschreitet. Wenn im Folgenden dezidiert von 
einer digitalen Forschungsinfrastruktur für die Geistes-, Kultur- und Sozialwis- 
senschaften (die Humanities) die Rede ist, dann bedeutet dies nicht, dass die 
Forschung sich ohne eine solche Infrastruktur nicht bereits umfassend digita- 
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lisiert hatte. Auch wenn eine Wissenschaftlerin oder ein Wissenschaftler nicht 
dezidiert ,digital forscht‘, nicht bewusst virtuelle Forschungsumgebungen und 
keine Software jenseits der Textverarbeitung benutzt, ist eine ‚undigitale‘ 
Forschung kaum mehr denkbar. 

Die Einbeziehung digitaler Methodiken in den Alltag hat für die Geistes- 
wissenschaften eine interessante Folge. Jenseits hochspezialisierter Forschungs- 
fragen in den jeweiligen Einzeldisziplinen kann fachübergreifend gemeinsam 
über digitale Arbeitsweisen diskutiert und können vielseitige Lösungen ent- 
wickelt werden. Zur traditionellen inhaltlichen Interdisziplinarität der Geistes- 
und Kulturwissenschaften gesellt sich eine praktische. Da durch die Inkorpora- 
tion fachfremder Epistemologien, etwa der Informatik oder Mathematik, der 
Komplexitätsgrad steigt, ändert sich auch der Phänotyp der Forschung. Die 
Arbeit im Team wird zum Standard, und statt des Einzelaufsatzes oder der 
im Alleingang verantworteten Monografie organisiert sich Wissensgewinn in 
Projekten und durch Kollaboration. Diese neuen Aspekte der Zusammen- 
arbeit bilden sich auch im Aufbau digitaler Forschungsinfrastrukturen ab, 
und hier kommt DARIAH ins Spiel, die DigitAl Research Infrastructure for the 
Arts and Humanities. 

DARIAH versteht sich als technische und soziale Infrastruktur, als ein 
„social marketplace for services“ (Blanke et al. 2011: 158f.). Ihre Aufgabe be- 
steht darin, Forscherinnen und Forscher bei ihrer Arbeit zu unterstützen, in- 
dem sie verlässliche Strukturen für die digitalen Aspekte des Forschungsalltags 
bereitstellt. Dabei kann es sich um Softwarelösungen handeln, etwa Werkzeuge 
wie TextGrid! (eine Allround-Suite für digitale Editionen) oder den Geo-Browser? 
(einen Online-Dienst für das Beforschen und Publizieren temporal-spatialer 
Daten).* DARIAH ist aber auch eine soziale und didaktische Plattform, über die 
Kenntnisse der digitalen Forschungspraxis vermittelt werden. 


2 Digitale Forschungsinfrastrukturen 


Eine Infrastruktur (von lateinisch infra ‘unterhalb’ und structura *Zusammenfügung’) ist 
im übertragenen Sinn ein Unterbau. Sie umfasst alle langlebigen Einrichtungen materiel- 
ler oder institutioneller Art, die das Funktionieren einer arbeitsteiligen Volkswirtschaft 
begünstigen. (Wikipedia 2017) 


1 https://textgrid.de (letzter Zugriff: 20.10. 2017). 

2 https://geobrowser.de.dariah.eu (letzter Zugriff: 20.10. 2017). 

3 Eine Übersicht zu den Infrastrukturangeboten von DARIAH-DE und TextGrid findet sich in: 
Blümm, Funk & Söring (2015). 
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Der Begriff Infrastruktur durchlebte in den letzten Jahrzehnten eine enorme 
Konjunktur, die dazu fiihrte, dass der Terminus mittlerweile nicht nur in tech- 
nischen und technologischen Komplexen, sondern nahezu in allen denkbaren 
sozio-ökonomischen und politischen Bereichen Einzug gehalten hat. Er zählt 
spätestens seit den 1950er Jahren nicht nur zu einem festen sprachübergrei- 
fenden Vokabular, sondern ist vielmehr als einer der zentralen Begriffe der 
Moderne, die sich im Kontext der Sozialstaatlichkeit und des westeuropäischen 
und US-amerikanischen Wirtschaftswachstums in den Nachkriegsjahren des 
20. Jahrhunderts durchsetzte, zu sehen. Der Bau von Straßen und Eisenbahn- 
strecken, deren wachsende Vernetzung und die damit verbundene Erschlie- 
Bung des Raumes, kurzum die sozioökonomische Modernisierung in den Jah- 
ren der Kriegs- und Nachkriegszeit prägten dieses neue technologisch- 
ökonomische Phänomen und damit auch den Begriff. Eine besondere Rolle 
spielten hierbei die Erschließung durch Elektrizität, mit Telegraphen- und spä- 
ter Telefonleitungen, fließendem Wasser und der Bau von Abwasserkanälen — 
dies im Gegensatz zum 19. Jahrhundert nicht mehr ausschließlich auf einen 
städtischen Raum beschränkt, sondern vielmehr als Erschließung des gesam- 
ten Landes, bis in den letzten Weiler und Kirchturm.* Die gesellschaftliche und 
vor allem die ökonomische Modernisierung und, damit einhergehend, das 
Wirtschaftswachstum im Zeitalter der Moderne, waren hierbei die Triebkräfte, 
die auch nach neuen Begrifflichkeiten und Termini verlangten. Aus diesem 
Grund ist es auch nicht verwunderlich, dass der Begriff „Infrastruktur“ etymo- 
logisch gegen Mitte des 19. Jahrhunderts in wirtschaftshistorischen Kontexten 
erstmals verwendet wurde, aber der unaufhaltsame Durchbruch erst Mitte des 
20. Jahrhunderts einsetzte. 

Abbildung 3.1 zeigt ein Diagramm mit der Häufigkeitskurve für den Begriff 
„Infrastruktur“, erstellt mit dem Ngram-Viewer von Google. Hierbei ist erkenn- 
bar, dass ab Mitte der 1940er Jahre der Begriff „Infrastruktur“ verwendet wird 
und die Nutzung in der Zeit des westdeutschen Wirtschaftswachstums, dem 
Erhard’schen „Wirtschaftswunder“ der 1950er Jahre, rapide ansteigt. Vergleich- 
bare statistische Tendenzen und Verläufe zeigen sich auch im englischsprachi- 
gen Raum für den Terminus „infrastructure“.” Auch im französischen Sprach- 
gebrauch steigt die Verwendungshäufigkeit ab Mitte der 1950er Jahre an, 
sodass von einem sprachübergreifenden Phänomen gesprochen werden kann 


4 Eine ausgezeichnete Beschreibung dieser grundsätzlichen sozialen und gesellschaftlichen 
Veränderungen, die alle westeuropäischen Länder und die USA betrafen, findet sich bei Mak 
(1999). 

5 Siehe: https://books.google.com/ngrams/graph?content=Infrastructure&year_start=1800& 
year_end=2008&corpus=18&smoothing=1 (letzter Zugriff: 20.10. 2017). 
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Abb. 3.1: Google-Ngram-Viewer: Visualisierung der relativen Häufigkeit des Begriffs 
„Infrastrukturen“ im deutschsprachigen Buchkorpus bei Google.* 
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Abb. 3.2: Google-Ngram-Viewer: Häufigkeitskurve für den Begriff „Forschungsinfrastrukturen“ 
im deutschsprachigen Buchkorpus bei Google.” 
und, statistisch gesehen, vergleichbare und parallele Entwicklungen im Deut- 
schen, Englischen und auch Französischen erkennbar sind. 

Von ,,Forschungsinfrastrukturen“ ist im Deutschen zu diesem Zeitpunkt 


übrigens noch keine Rede, zumindest lassen sich hierfür keine Nennungen fin- 
den, sondern, mit einer statistischen Variabilität, erst ab Ende der 1970er Jahre. 


6 Siehe: https://books.google.com/ngrams/graph?content=Infrastruktur&year_start=1800& 
year_end=2008&corpus=20&smoothing=1 (letzter Zugriff: 20.10. 2017). 
7 Siehe  https://books.google.com/ngrams/graph?content=Forschungsinfrastrukturen&year_ 


start=1940&year_end=2008&corpus=20&smoothing=1 (letzter Zugriff: 20.10. 2017). 
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Ganz gegensätzlich sind hier die Nennungen im Englischen, die bereits 
Ende der 1960er und insbesondere ab den 1970er Jahren einen rasanten An- 
stieg dieses Begriffes verzeichnen.® Dies ist auf die politischen Diskussionen 
der Europäischen Kommission zurückzuführen, die bereits 1972 die ersten Leit- 
linien für eine Gemeinschaftspolitik im Bereich von Forschung, Entwicklung 
und Innovation vorschlug, was letztlich etwa zehn Jahre später, 1983, zur Ver- 
abschiedung des ersten gemeinschaftlichen Rahmenprogramms führte (vgl. 
Europäisches Parlament 2016: 1f., 6 f.). Die gemeinsame, auf Ebene der Europä- 
ischen Gemeinschaft initiierte Forschungspolitik hatte zwei Grunddimensionen 
zum Ziel: Einerseits sollte auf europäischer Ebene eine Koordinierung der ein- 
zelstaatlichen Forschungsstrategien erfolgen, andererseits der Fokus auf eine 
Verbesserung der Zusammenarbeit der Mitgliedstaaten im Bereich von For- 
schung und Entwicklung gelegt werden (vgl. Europäisches Parlament 2016: 
6f.). Als zu Beginn der 1980er Jahre das erste Rahmenprogramm geplant und 
strukturiert wurde, lag der Fokus vor allem auf der wirtschaftlichen Stärkung 
Europas durch Forschungs- und Entwicklungsvorhaben und damit verbunden 
auf der Initiierung von Infrastruktur- und Forschungsinfrastrukturvorhaben, 
die mitgliedstaatsübergreifend initiiert, entwickelt und betrieben werden soll- 
ten (vgl. Europäisches Parlament 2016: 8-10). Ein Schwerpunkt lag hierbei auf 
den angewandten Wissenschaften und den Naturwissenschaften, die bis zum 
heutigen Zeitpunkt oftmals den Begriff Forschungsinfrastrukturen konnotie- 
ren. Darin erzielte Forschungsergebnisse sollten mittels eines Wissenstransfers 
mittel- und langfristig in kommerzielle Bereiche transferiert und durch Indus- 
trie und Gewerbe genutzt werden können. Insbesondere sind Forschungsinfra- 
strukturen mit Großforschungsvorhaben sprachlich konnotiert, wie beispiels- 
weise dem CERN (Conseil Européen pour la Recherche Nucléaire), das bereits 
1953 gegriindet wurde und in dem physikalische Grundlagenforschung betrie- 
ben wird. Eine Reihe weiterer naturwissenschaftlicher Großforschungsvorha- 
ben sind auf europäischer Ebene im Rahmen der ESFRI-Prozesse (European 
Strategy Forum on Research Infrastructures) zu nennen, die in den letzten Jah- 
ren im Rahmen der Forschungsrahmenprogramme entwickelt und aufgebaut 
wurden, von denen derzeit fünfin den Geistes-, Kultur- und Sozialwissenschaf- 
ten (SSH) zu verorten sind.’ Bei diesen handelt es sich um SHARE”, European 


8 Siehe https://books.google.com/ngrams/graph?content=research+infrastructures&year_start= 
1950&year_end=2000&corpus=15&smoothing=3 (letzter Zugriff: 20. 10. 2017). 

9 Eine genaue Aufstellung findet sich unter: http://ec.europa.eu/research/infrastructures/ 
index_en.cfm?pg=esfri (letzter Zugriff: 20. 10. 2017). 

10 The Survey of Health, Ageing and Retirement in Europe (SHARE): http://www.share- 
project.org/home0.html (letzter Zugriff: 20.10. 2017). 
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Social Survey", CESSDA”, CLARIN” und DARIAH'*. Während in den Anfangs- 
jahren der europäischen Forschungsförderung der Fokus vor allem auf natur- 
wissenschaftlichen Forschungsvorhaben, der Grundlagenforschung und kom- 
merziell nutzbaren Themen lag, werden seit ungefähr 15 Jahren verstärkt auch 
geistes- und sozialwissenschaftliche Vorhaben gefördert. 

Forschungsinfrastrukturen sind, historisch gesehen — und wie aufgezeigt -, 
ein Novum des 20. Jahrhunderts und aufgrund ihrer Entwicklungsgeschichte vor 
allem naturwissenschaftlich oder klassisch infrastrukturell (Straßen, Verkehr, 
Energie, Telekommunikation etc.) ausgerichtet. In Deutschland selbst wurde 
dieses Themenfeld vor allem durch den Wissenschaftsrat ab 2007 aufgegriffen 
und vier Jahre später als Empfehlungen zu Forschungsinfrastrukturen in den 
Geistes- und Sozialwissenschaften thematisiert und publiziert (Wissenschaftsrat 
2011). Dies stellte einen Paradigmenwechsel dar - und damit verbunden auch 
die Initiierung eines forschungskulturellen Wandels in den Geistes- und Kultur- 
wissenschaften -, da zuvor der Fokus vor allem auf naturwissenschaftlichen 
Großgeräten und auf Fachdisziplinen lag, deren Forschungen von umfang- 
reichen und kostenintensiven Apparaten und Einrichtungen abhängig waren. 
Das Ziel war hierbei, „geeignete Infrastrukturen und Schritte zu ihrer Entwick- 
lung und Förderung [zu] identifizieren, die den Geistes- und Sozialwissen- 
schaften in Deutschland optimale Bedingungen für international beachtens- 
werte Forschungen bieten [sollten]“ (Wissenschaftsrat 2011: 5f.). 

Die Herausforderung bestand und besteht darin, dass ein forschungs- 
politisches Konzept auf geistes-, kultur- und sozialwissenschaftliche Fach- 
disziplinen übertragen werden sollte, die sich eigentlich in ihren eigenen 
Fachtraditionen dadurch auszeichneten, dass die überwiegende Mehrzahl der 
Fachvertreterinnen und Fachvertreter eben keine Großgeräte für ihre For- 
schungen benötigten und die wenigsten von ihnen kollaborativ mit anderen 
forschten und publizierten. Es war ein „digitaler Einbruch“ in eine „Welt der 
klassischen Gelehrten“, in der bis zum heutigen Tag Forschungsleistungen 
zumeist immer noch als individuelle wissenschaftliche „Leistung“ betrachtet 
werden, die wiederum als Publikation in den wissenschaftlichen Diskurs der 
Fachdisziplin zurückgeführt wird. In vielerlei Hinsicht war die Nutzung von 
Forschungsinfrastrukturen zumeist auf die Nutzung von Bibliotheken, Archiven, 
Galerien und Museen und die Nutzung von Computern als digitale Schreib- 


11 http://www.europeansocialsurvey.org (letzter Zugriff: 20.10. 2017). 

12 Consortium of European Social Science Data Archives (CESSDA): https://www.cessda.eu 
(letzter Zugriff: 20.10. 2017). 

13 https://www.clarin.eu (letzter Zugriff: 20.10. 2017). 

14 http://dariah.eu (letzter Zugriff: 20.10. 2017). 
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geräte beschränkt. Der diesem Umstand zugrunde liegende Forschungs- 
kreislauf, der sich als Methodeninstrumentarium über lange Jahrzehnte ent- 
wickelte — wenn nicht sogar eine jahrhundertealte methodologische Evolution 
darstellt -, war zumeist klar definiert und der in den einzelnen Fächern ent- 
wickelte Kanon an Methoden und Theorien zumeist auf die Analyse des ge- 
schriebenen Wortes in Form von Büchern oder Archivalien abgestimmt. Kurz- 
um, es war ein klassischer Forschungskreislauf der Hermeneutik, also dem 
Lesen, Verstehen, Analysieren, Interpretieren von Texten und der Generierung 
von Forschungsergebnissen in Form von neuen Texten. 

Und dennoch sind bereits seit Mitte der 1970er Jahre erste Forschungs- 
vorhaben sowie Wissenschaftlerinnen und Wissenschaftler zu nennen, die sich 
explizit mit digitalen Methoden bzw. mit digitalen Daten auseinandergesetzt 
haben, wie beispielsweise Manfred Thaller und das datenbankorientierte 
Programmiersystem CLIO (vgl. Grotum 2004: 37f.) oder das Projekt TUSTEP 
(das TUebinger System von TExtverarbeitungs-Programmen)", das seit 1978 die 
elektronische Auszeichnung und Erschließung von Texten ermöglicht, um bei- 
spielsweise textkritische Ausgaben zu erstellen. Dennoch bildeten die genann- 
ten und eine Reihe weiterer Beispiele die Ausnahme als die Regel von digitalen 
geisteswissenschaftlichen Forschungsvorhaben im Zeitraum der 1970er bis 
1990er Jahre. Sie sind eher als Avantgarde zu verstehen. Ein breiterer Trend 
hin zum Digitalen auch in den Geistes- und Kulturwissenschaften lässt sich 
erst seit ungefähr zehn Jahren erkennen (Neuroth 2012: 156). Einerseits lagen 
ab diesem Zeitraum immer mehr textbasierte Forschungsdaten, also Publika- 
tionen und Archivalien, elektronisch vor, andererseits trafen diese Entwicklun- 
gen auf eine immer größer werdende Zahl von digitalen Forschungsvorhaben 
und Initiativen, die sowohl von europäischer Ebene als auch durch das BMBF 
und die DFG gefördert wurden und dadurch eine allmähliche Öffnung und eine 
sich abzeichnende Erweiterung der geisteswissenschaftlichen Methodeninstru- 
mentarien herbeiführten. Eine besondere Rolle nahmen hierbei die beiden 
durch das BMBF geförderten Forschungsinfrastrukturvorhaben CLARIN-D’ 
und DARIAH-DE” ein, die aufgrund ihrer kollaborativen und auf Partizipation 
ausgerichteten konsortialen Strukturen digitale Werkzeuge entwickelten und 
Empfehlungen für die Nutzung von elektronischen Forschungsdaten konzi- 
pierten, die auf dezidierten fachwissenschaftlichen Anforderungen basierten. 

Nichtsdestotrotz bestehen bis zum heutigen Tag drei Spannungsfelder, die 
bislang nicht aufgelöst wurden und insbesondere in den Geistes- und Kultur- 


15 Siehe: http://www.tustep.uni-tuebingen.de (letzter Zugriff: 20.10. 2017). 
16 https://www.clarin-d.de/de/ (letzter Zugriff: 20.10. 2017). 
17 https://de.dariah.eu (letzter Zugriff: 20.10. 2017). 
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wissenschaften, aber auch bei Kultureinrichtungen und Förderern in den kom- 
menden Jahren thematisiert werden müssen: 


1. 


Die an Geschwindigkeit permanent zunehmende Digitalisierung der Gesell- 
schaft führt auch in den Geistes- und Kulturwissenschaften zu irreversib- 
len Veränderungen. Die Zunahme an elektronischen Publikationen und 
Archivalien, entweder digitalisiert oder sogar in maschinenlesbaren digita- 
len Formaten, führt zu veränderten und neuen Nutzungs- und Rezeptions- 
gewohnheiten. Dem werden sich Publikationsformen angleichen, da ge- 
druckte Werke zukünftig nur noch in geringem Maße publiziert werden. 
Nimmt man die Veränderungen, die beispielsweise die Musikbranche in 
den vergangenen Jahren durchlebte - Phonograph (1877), Schellackplatte 
(1896), Vinyl-Schallplatte (1930), Kompaktkassette (1961), Compact Disc 
(1981), MP3 (1992), Filesharing (Mitte der 1990er), Musik-Streaming (seit 
2005) — als Vorbild, so wird deutlich, dass einerseits die Abstände der inno- 
vativen Entwicklungen immer kürzer wurden, andererseits die Nutzungs- 
möglichkeiten sich allein in den vergangenen zehn Jahren grundsätzlich 
geändert haben. Musik ist seit diesem Zeitpunkt nicht nur zu jeder Zeit 
und an jedem Ort verfügbar, sondern das einzelne Individuum hat zugleich 
Zugriff auf den gesamten weltweiten Bestand. Die limitierenden Faktoren 
sind nicht mehr der Besitz eines einzelnen Stückes, sondern einzig allein 
der Netzzugang und ein entsprechendes Abo bei einem Streaming-Anbieter. 
Diese strukturellen Veränderungen betrafen nicht nur die individuellen 
Nutzungsmöglichkeiten, sondern hatten unmittelbare, wenn nicht sogar 
revolutionäre, Auswirkungen auf die Musikindustrie, die langjährig ge- 
wachsene Strukturen binnen kürzester Zeit anpassen mussten. Überträgt 
man diese Prozesse auf das Material, also beispielsweise Bücher, Quellen 
und Archivalien, das geisteswissenschaftlicher Forschung zugrunde liegt, 
so ist erkennbar, dass eine ‚undigitale‘ Forschung in Zukunft nicht mehr 
möglich sein wird — und zugleich, dass dieser revolutionäre strukturelle 
Wandel in ihrer Dimension noch aussteht. Gerade in diesen revolutionären 
medialen Veränderungen liegen aber auch zentrale Chancen. Einerseits kön- 
nen größere Buchbestände in ungeahnten Datenmengen digital erschlossen 
und analysiert werden, wie bereits Gregory Crane (2006) in seinem Aufsatz 
What Do You Do with a Million Books? postulierte; andererseits können neue 
Methoden für den Umgang und die Nutzung dieser digitalen Daten entwi- 
ckelt werden. So unter anderem eine Erweiterung der Quellenkritik in der 
Geschichtswissenschaft für den Umgang mit digitalen Daten, um auch zu- 
künftig grundsätzliche methodische Ansprüche, wie das Koselleck’sche 
Primat des „Vetorechts der Quellen“ (Jordan 2010), an die neuen digitalen 
Anforderungen anpassen zu können. Dabei ist ganz zu schweigen von ge- 
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samtgesellschaftlichen Kontextualisierungen, die in einer digitalisierten 
und datengetriebenen Welt durch die Geisteswissenschaften erfolgen 
könnten, etwa der Verständlichmachung von Wissenschaft in der Offent- 
lichkeit oder den Risiken irregeleiteter Fakteninterpretationen (Fake News). 
2. Die disziplinären und forschungspolitischen Diskurse um die Notwendig- 
keit der Etablierung von digitalen Forschungsinfrastrukturen sind in 
vielerlei Hinsicht immer noch von einem veralteten und zum Teil histo- 
risierenden Bild geprägt. Oftmals wird das klassische Bild einer Infra- 
struktur verwendet, wie beispielsweise das Autobahnnetz, die Versorgung 
mit Elektrizität, das Wassernetz oder das Bildungs- bzw. Gesundheits- 
system. Hierbei handelt es sich um etablierte Infrastrukturen, die dafür 
Sorge tragen, dass spezifische Anforderungen einer gesamtgesellschaft- 
lichen Versorgung erfüllt werden. Übertragen auf die geisteswissenschaft- 
liche Forschung könnte man die klassische Versorgung mit gedruckter 
Literatur durch Bibliotheken, das Sammeln von Sammlungsgut durch 
Museen oder die Sicherung von Archivbeständen und deren Aufbereitung 
für die Forschung durch Archive synonym verwenden. Digitale For- 
schungsinfrastrukturen sind allerdings keine Bauten oder experimentelle 
Großgeräte, die einmal gekauft, funktionieren und ab und an repariert 
oder instandgesetzt werden müssen. Digitale Forschungsinfrastrukturen 
sind vielmals selbst Ausdruck der Innovation in der wissenschaftlichen 
Methodenentwicklung — und dies nicht nur in der Informatik oder den 
Informations-, Bibliotheks- und Archivwissenschaften - und befinden sich 
gerade deshalb in einem dauerhaften „Weiterentwicklungs- und Innova- 
tionszwang“. Nur wenn ein kontinuierlicher Ausbau und Umbau für digita- 
le Forschungsinfrastrukturen garantiert werden kann, können nachhaltige 
digitale Forschungsinfrastrukturen etabliert werden. Eine Aufgabe, die 
eben nicht nur für Geistes- und Kulturwissenschaften gilt, sondern auch 
in den Naturwissenschaften vorzufinden ist, wie das Beispiel CERN oder 
auch der Neubau des Forschungsschiffes Polarstern’? zeigen. Insbesondere 
bei Softwarewerkzeugen, die Bestandteil digitaler Forschungsinfrastruktu- 
ren sind, besteht ein dauerhafter Entwicklungs- und Modernisierungs- 
bedarf, hervorgerufen durch den technologischen Wandel und den immer 
kürzer werdenden Innovationszyklen bei den in Endgeräten eingesetzten 
Betriebssystemen und Schnittstellen. Dass selbst dies ein eigener For- 
schungsgegenstand ist und entsprechende Langzeitstudien fehlen, ist 
beispielsweise der seit 1994 jährlich veröffentlichten CHAOS-Studie der 


18 https://www.awi.de/expedition/schiffe/polarstern.html (letzter Zugriff: 20.10. 2017). 
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britischen Standish Group zu entnehmen, in der Erfolgs- und Misserfolgs- 
faktoren von IT-Projekten auf Basis von annähernd 40.000 Einzelprojekten 
analysiert werden (siehe z. B. The Standish Group 2014). 

3. Zugleich besteht ein Spannungsfeld darin, dass zum jetzigen Zeitpunkt die 
Entwicklung und der Aufbau von digitalen Forschungsinfrastrukturen 
zwar durch die Forschungsförderer selbst als Forschungsvorhaben gehand- 
habt werden, aber zugleich fiir diese Forschungsprojekte bislang keine 
Möglichkeit bestand, Betriebsförderungen zu erhalten. Da der Betrieb von 
digitalen Forschungsinfrastrukturen, insbesondere in den Geistes- und 
Kulturwissenschaften, aufgrund der technologischen und inhaltlichen 
Komplexitäten nicht durch einzelne Einrichtungen getragen werden 
kann, müssen neben der Finanzierungsfrage zugleich neue Betriebs- 
modelle entwickelt werden. CLARIN-D und DARIAH-DE, die in diesen 
Fragen seit 2015 eng zusammenarbeiten, verfolgen beide einen kollabora- 
tiven und föderalen Ansatz, der eine Vielzahl unterschiedlicher Akteure 
mit unterschiedlichen Fähigkeiten und Kernkompetenzen in konsortialen 
Verbünden zusammenschließt. So werden insbesondere Schlüsselkompe- 
tenzen in daten-, forschungs-, tool- und lehrspezifischen Bereichen benö- 
tigt, die nur durch eine Kooperation von Universitäten, außeruniversitären 
Forschungseinrichtungen, Datenzentren, Bibliotheken, Archiven und auch 
klein- und mittelständischen Unternehmen aufgebaut und erfolgreich ein- 
gesetzt werden können. 


Nach diesen Ausführungen zur speziellen Historizität digitaler Infrastrukturen 
im Allgemeinen kann nun DARIAH als eine der neuartigen Infrastrukturen für 
die Geisteswissenschaften vorgestellt werden, zunächst die Dachorganisation 
DARIAH-EU, die gemäß ihres Namens auf EU-Ebene, aber auch darüber hinaus 
agiert. 


3 Eine kurze Geschichte von DARIAH-EU 


DARIAH-EU wurde im Rahmen des ESFRI gegründet und tauchte erstmals 2006 
in der ESFRI-Roadmap auf, als eines von sechs geistes- und sozialwissenschaft- 
lichen Projekten (European Roadmap for Research Infrastructures 2006: 33). 
Innerhalb des ESFRI wurde eine Rechtsform entwickelt, die es den geförderten 
europäischen Forschungsverbünden ermöglicht, langfristig und finanziell sta- 
bil auf Basis eines europäischen Konsenses zu agieren. Diese Rechtsform trägt 
das Kürzel ERIC (European Research Infrastructure Consortium). Das DARIAH- 
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ERIC wurde nach langer Vorbereitung am 15. August 2014 von der Europäischen 

Kommission etabliert. 

So wichtig dieser gesetzte politische Rahmen ist, näher an der Alltags- 
praxis ist man, wenn man DARIAH bottom-up erzählt. Direkt im DARIAH- 
Kontext forschen und arbeiten mehrere hundert Wissenschaftlerinnen und 
Wissenschaftler in ganz Europa, deren Institutionen (Universitäten, Biblio- 
theken, Forschungseinrichtungen, Zentren) wiederum direkte Kooperations- 
partner von DARIAH sein können. Die nächstgrößere Struktur sind die 
nationalen DARIAH-Verbünde, von denen DARIAH-DE, DARIAH-FR, DARIAH-IT 
und DARIAH-NL die größten sind.” Mittlerweile hat DARIAH 17 Mitglieds- 
länder, wobei diese nicht zwingend Mitglied der EU sein müssen, wie das 
Beispiel DARIAH-RS”° (Serbien) zeigt. Hinzu kommen einzelne Institutionen, 
die Kooperationspartner sein können, ohne dass bereits deren Heimatländer 
volle DARIAH-Mitglieder sein müssen (momentan betrifft dies Institutionen in 
Finnland, Norwegen, Schweden, der Schweiz, Ungarn und in Großbritannien). 
Bevor wir einen Blick auf das Mitglied DARIAH-DE werfen, sei ein Blick auf die 
Organisationsstruktur von DARIAH-EU geworfen, um langsam von struktu- 
rellen zu inhaltlichen Gesichtspunkten überzuleiten. 

Das Rückgrat von DARIAH bilden die vier Virtuellen Kompetenzzentren 
(VCCs), die sich um vier thematische Schwerpunkte gebildet haben, die für 
digital betriebene Geisteswissenschaften als entscheidend identifiziert wurden: 
- VCC 1 (e-Infrastructure) beschäftigt sich mit dem technischen Fundament 

von DARIAH und sorgt für die Bereitstellung von Tools und Diensten für 

digital arbeitende Geisteswissenschaftlerinnen und -wissenschaftler. 

- VCC 2 (Research and Education Liaison) dient als Schnittstelle zwischen 
den Infrastrukturangeboten und der Forschergemeinde und soll digitale 
Forschungspraktiken und -prozesse verstehen und fördern helfen. Ermög- 
licht wird dies etwa durch die Organisation von Workshops, bei denen jun- 
ge Forscherinnen und Forscher mit den Methoden und Praktiken der digi- 
talen Forschung bekannt gemacht werden, sowie durch die Abstimmung 
von Curricula in den Digital Humanities auf gesamteuropäischer Ebene. 

- VCC 3 (Scholarly Content Management) beschäftigt sich mit den verschiede- 
nen Stufen der Wissensgenerierung und soll sicherstellen, dass digitale For- 
schungsdaten zur Wiederverwendung bereitstehen, also deren Interopera- 
bilität und Nachhaltigkeit gesichert sind, etwa durch die (Mit)Entwicklung 
von entsprechenden Standards. 


19 https://www.dariah.eu/about/members-and-partners/; http://it.dariah.eu/sito/; https:// 
www.clariah.nl/en/ (letzter Zugriff: 20.10. 2017). 
20 http://dariah.rs (letzter Zugriff: 20.10. 2017). 
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- VCC 4 (Advocacy, Impact and Outreach) kümmert sich darum, dass DARIAH 
zum größtmöglichen Nutzen der Community arbeitet, und misst und be- 
wertet dafiir den Einfluss, die die Infrastruktur hat, sowie den Mehrwert, 
den sie bietet. VCC 4 versucht außerdem, das Einflussgebiet von DARIAH 
zu vergrößern, um gezielt Stakeholder zu erreichen. 


Den direkten Draht zur Forschungscommunity stellen wiederum die DARIAH- 
Arbeitsgruppen her (Working Groups, WG), von denen es momentan 18 gibt. 
Sie sind einem oder mehreren VCCs zugeordnet, organisieren sich dabei aber 
selbst und reichen von Gruppen zu konkreten Forschungsfragen wie Text and 
Data Analytics über methodisch orientierte Gruppen wie Digital Annotation 
oder Image Science and Media Art Research bis hin zu eher integrativ ausge- 
richteten Gruppen wie Training and Education oder Community Engagement. 

Schwenkt man den Blick von den WGs auf die Governance-Ebene, begegnet 
man verschiedenen Gremien, deren Funktionen in den Statuten des DARIAH- 
ERIC (2017) festgehalten sind: 


- Die General Assembly (GA) versammelt VertreterInnen der Finanzmittelgeber, in den 
meisten Fällen RepräsentantInnen der nationalen Ministerien. 

- Das Scientific Board (SB), das momentan aus zehn internationalen ExpertInnen aus 
dem Gebiet der Digital Humanities besteht, berät DARIAH in wissenschaftlichen und 
technischen Fragen. 

- Das Board of Directors (BoD) ist das Exekutivorgan von DARIAH und besteht aus drei 
FachwissenschaftlerInnen, die für bis zu drei Jahre gewählt (und auch wiedergewählt) 
werden können. 

- Das National Coordinator Committee (NCC) repräsentiert die KoordinatorInnen der na- 
tionalen DARIAHs auf gesamteuropäischer Ebene. 

- Das Joint Research Committee (JRC) besteht aus den LeiterInnen der einzelnen VCCs 
und wird vom Chief Integration Officer (CIO) geführt. 

- Das Senior Management Team (SMT) besteht aus der/dem Vorsitzenden plus Stellver- 
treterIn des NCC und des Joint Research Committees (JRC). 

- Das DARIAH Coordination Office (DCO) ist verantwortlich für Finanzen, Koordination 
und Kommunikation 


Das Organisationsschema in Abbildung 3.3 kann nun zwar schematisch ver- 
deutlichen, wie die einzelnen Gremien ineinandergreifen. Besser illustrieren 
lässt sich die Funktionsweise von DARIAH aber durch ein konkretes Beispiel, 
etwa am Entwurf und der (laufenden) Umsetzung des aktuellen DARIAH- 
Strategieplans. Schon in den Jahren 2011 und 2014 hatte es entsprechende 
Pläne gegeben, die zunächst darauf ausgerichtet waren, einen Überblick über 
die Wissenschaftslandschaft, in der sich DARIAH bewegt, zu gewinnen, ein 
Mission Statement zu entwerfen und High-Level Principles zu benennen. Basie- 
rend auf diesen Vorarbeiten zielt das aktuelle Papier, das Anfang 2017 als living 
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Abb. 3.3: Organigramm für DARIAH-EU (© DARIAH-EU 2017). 


document ins Leben gerufen wurde, darauf ab, konkrete Ziele zu benennen und 
dafür Monitoring-Prozesse zu etablieren, die sich am Nutzen der zur Verfügung 
gestellten Dienste und Services für die Community ausrichten. Die 25 Aktions- 
punkte des Plans reichen zunächst bis ins Jahr 2019, sollen konkret aber den 
Betrieb von DARIAH über dieses Jahr hinaus gewährleisten. 

Die Notwendigkeit eines aktuellen Strategieplans wurde, angestoßen von 
Laurent Romary (Präsident des Boards of Directors) zuerst im Januar 2017 bei 
einem Treffen des JRC und des SMT in Berlin diskutiert. Ein erster Entwurf, der 
von Jennifer Edmond (BoD), Sally Chambers (NCC) and Marianne Huang (JRC) 
verfasst wurde, zirkulierte ab Mitte Februar im SMT und im DCO, dann ab März 
im SB, JRC und NCC und wurde im April über die [dariah-all]-Mailingliste ver- 
teilt, zur Vorbereitung des Annual Meetings von DARIAH, das 2017 im Harnack- 
Haus in Berlin-Dahlem stattfand. Im Mai 2017 wurde das Papier in einer virtu- 
ellen Sitzung der General Assembly vorgestellt; eine finale Revision soll der 
General Assembly im November 2017 zur Bestätigung vorgelegt werden. 

Die Beschreibung der Zirkulation dieses Papiers soll verdeutlichen, wie 
ausgreifend und aktiv Entscheidungsprozesse in einer Infrastruktur wie 
DARIAH organisiert werden, um alle Gremien, vor allem aber auch die (Reprä- 
sentanten der) Stakeholder einzubeziehen, gerade wenn es sich um ein pan- 
europäisches Infrastrukturprojekt wie DARIAH handelt. 
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4 Eine kurze Geschichte von DARIAH-DE 


Seit das Bundesministerium fiir Bildung und Forschung (BMBF) 2011 das Pilot- 
projekt Roadmap fiir Forschungsinfrastrukturen initiiert hat, steht DARAH-DE 
als eine im Aufbau befindliche Forschungsinfrastruktur fiir die Geisteswissen- 
schaften auf der nationalen Roadmap” - übrigens als eine von insgesamt zwei. 
Die andere Infrastruktur für die Geisteswissenschaften auf der Roadmap ist das 
bereits erwähnte CLARIN-D. 

Die Förderung durch das BMBF hat DARIAH-DE bisher drei Projektlauf- 
zeiten ermöglicht: die Aufbauphase 03/2011-02/2014, daran anschließend die 
Ausbau- und Konsolidierungsphase 03/2014-02/2016 und aktuell die Institu- 
tionalisierungsphase 03/2016-02/2019, der ab 03/2019 die Betriebsphase fol- 
gen soll. DARIAH-DE ist eine konsortial organisierte Initiative, deren 19 Partner 
deutschlandweit an den Standorten Bamberg, Berlin, Bonn, Darmstadt, Essen, 
Göttingen, Jülich, Karlsruhe, Mainz, München, Tübingen, Wolfenbüttel und 
Würzburg verteilt sind. Auch die Kompetenzen im Konsortium sind gut verteilt 
und ergänzen sich: Universitäten, Forschungseinrichtungen, Rechenzentren, 
Bibliotheken, Akademien der Wissenschaften, eine nichtstaatliche Organisa- 
tion und ein kommerzieller Partner sorgen für die nötige fachwissenschaft- 
liche, informationstechnische und informationswissenschaftliche Expertise, die 
Grundvoraussetzung für eine funktionierende Forschungsinfrastruktur ist.” 

Strukturell war DARIAH-DE gerade in der Aufbauphase sehr eng an 
DARIAH-EU angelehnt, die vier Arbeitspakete e-Infrastruktur (AP 1), Forschung 
und Lehre (AP 2), Forschungsdaten (AP 3) und DARIAH-DE Konsortium Manage- 
ment (AP 4) waren analog zu den vier VCCs angelegt und sollten eine direkte 
Übertragbarkeit der erzielten Ergebnisse auf EU-Ebene (in-kind contributions) 
gewährleisten. Für die folgenden Projektphasen wurde eine flexiblere Cluster- 
Struktur gewählt, die es ermöglichte, neue Schwerpunkte als zusätzliche 
Cluster zu integrieren bzw. Cluster aufzulösen, wenn alle Inhalte erarbeitet 
worden sind. Damit vollzog DARIAH-DE organisatorisch einen wichtigen 
Schritt Richtung Institutionalisierung. Die Cluster sind thematisch ausgerichtet: 
- Cluster 1 (Begleitforschung) achtet auf die Einhaltung von Nutzerfreund- 

lichkeit und Erfolgskriterien bei der Anpassung bestehender sowie der 


21 https://www.bmbf.de/pub/Roadmap_Forschungsinfrastrukturen.pdf (letzter Zugriff: 
20.10. 2017). 

22 Einen Überblick über die Gesamtarchitektur, zur Governancestruktur, zu den einzelnen For- 
schungsthemen und dem Serviceangebot von DARIAH-DE findet sich in: Neuroth/Schmunk/ 
Bliimm/Rapp/Jannidis/Wintergriin/Schwardmann/Gietz (2016). 
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Integration und Entwicklung neuer Services und erarbeitet Publikations- 
sowie Disseminationsstrategien. Cluster 1 ist eng verzahnt mit VCC4. 

- Cluster 2 (elnfrastruktur) schafft die technischen Voraussetzungen, um 
Dienste innerhalb von DARIAH-DE zuverlässig und dauerhaft zu betreiben. 
Es arbeitet direkt mit VCC1 zusammen. 

- Cluster 3 (Institutionalisierung von DARIAH-DE und Aufbau des DARIAH-DE 
Coordination Office) kümmert sich um den organisatorischen und recht- 
lichen Aufbau des Coordination-Office und die Institutionalisierung für 
den dauerhaften Betrieb von DARIAH-DE. Es ist weiterhin verantwortlich 
für die Anbindung der fachwissenschaftlichen DH-Communitys sowie den 
Betrieb und weiteren Ausbau der DARIAH-DE Service Unit (DeISU). 

- Cluster 4 (Wissenschaftliche Sammlungen) unterstützt Geisteswissenschaft- 
lerinnen und -wissenschaftler bei der Erstellung und Nutzung von Wissen- 
schaftlichen Sammlungen und Forschungsdaten und baut die DARIAH-DE 
Forschungsdaten-Föderationsarchitektur auf. Cluster 4 steht in Austausch 
mit VCC3. 

- Cluster 5 (Quantitative Datenanalyse) erforscht die geisteswissenschaftliche 
Nutzung quantitativer Methoden und Verfahren wie Information Retrieval 
und Text Mining anhand von Use Cases zu biographischen Daten und zu 
Topic Modeling-Verfahren bei Textsammlungen. 

- Cluster 6 (Annotieren, analysieren, visualisieren) entwickelt Strategien, um 
die Daten vorhandener Repositorien für Technologien des Semantic Web zu 
öffnen und somit nachhaltiger und effizienter nutzen zu können. Dies be- 
inhaltet Use Cases zur Analyse und Visualisierung annotierter Forschungs- 
daten sowie den Austausch mit der Forschungscommunity. Cluster 5 und 6 
sind an VCC2 angebunden. 


Ein siebtes Cluster mit dem thematischen Schwerpunkt Bilder und Objekte ist 
in Planung. Diese Struktur ermöglicht es, dass DARIAH-DE als Forschungs- 
infrastruktur auch zukünftig neue Themenfelder aufnehmen und in Form von 
Clustern integrieren kann. 

Genau wie DARIAH-EU weist auch DARIAH-DE einige zusätzliche unter- 
stützende Strukturen und Einheiten auf (Abb. 3.4). Die Gesamtkoordination 
des Verbundprojekts erfolgt durch die Konsortialleitung. Daneben gibt es 
einige Arbeitsgruppen, die sich mit cluster- und institutionsübergreifenden 
Themen beschäftigen, z.B. der Aufnahme externer Dienste in die DARIAH-DE 
Forschungsinfrastruktur oder der Pflege des Projektportals.”? 


23 https://de.dariah.eu/ (letzter Zugriff: 20.10. 2017). 
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Abb. 3.4: Organigramm für DARIAH-DE (© DARIAH-DE 2016). 


Fachgremien wie das Stakeholdergremium Wissenschaftliche Sammlungen 
versammeln externe Expertinnen und Experten zu einem speziellen Thema, 
die DARIAH-DE ihre Expertise zur Verfügung stellen und gemeinsam das 
Thema weiter entwickeln. 

Zwei Entscheidungsgremien, das Steuerungsgremium als Organ der betei- 
listen Partnereinrichtungen und das Exekutiv-Komitee als Gremium der Cluster- 
leitungen, monitoren den Stand der Entwicklungen und legen die Gesamt- 
strategie von DARIAH-DE fest. Der Wissenschaftliche Beirat”* und der 
technische Beirat, das so genannte Technical Advisory Board”, begleiten bera- 
tend die Entwicklung von DARIAH-DE. DARIAH-DE ist wie DARIAH-EU offen 
für Kooperationen und Austausch. 


24 https://wiki.de.dariah.eu/display/publicde/Wissenschaftlicher+Beirat (letzter Zugriff: 
20.10. 2017). 
25 https://wiki.de.dariah.eu/display/publicde/Technical+Advisory+Board (letzter Zugriff: 
20.10. 2017). 
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5 Die Rolle der Community 


DARIAH-DE setzt das Konzept der „Architektur der Partizipation“ (Architecture 
of participation) (vgl. Blümm, Neuroth & Schmunk 2016), das im Kontext von 
DARIAH-EU entwickelt wurde, auf nationaler Ebene als kooperatives Modell 
um. Zentral dafür ist ein intensiver Austausch bzw. eine Verschränkung von 
Forschungsarbeiten und Entwicklungen von DARIAH-DE mit assoziierten Pro- 
jekten bzw. Partnern im In- und Ausland. Durch das Zusammenwachsen mit 
TextGrid sind weitere Kooperationspartner hinzugekommen, womit das Zu- 
sammenwachsen von Communitys begünstigt wurde. So ist es gelungen, in 
den letzten Jahren eine breite Nutzerschaft aufzubauen und diese durch die 
verschiedenen Angebote der Forschungsinfrastruktur zu unterstützen. Gleich- 
zeitig fließen Ideen, Anforderungen, aber auch Ergebnisse der an DARIAH-DE 
angedockten Forschungsprojekte, Initiativen und Verbünde in die weitere Ent- 
wicklung und Ausrichtung der Forschungsinfrastruktur maßgeblich ein. 

Der Grad der Kooperation ist dabei variabel. Er reicht von einer Beteiligung 
im Konsortium durch Eigenmittel (z.B. Max Weber Stiftung) über eine Ab- 
sichtserklärung (Letter of Intent) der Zusammenarbeit im Projektkontext bis 
hin zur reinen Nutzung von Diensten ohne näheren, direkten Austausch mit 
DARIAH-DE. 

Durch diesen Ansatz wird maximale Flexibilität erreicht, die sicherstellen 
soll, dass Interessierte jeweils ihrer individuellen Bedarfe und Möglichkeiten 
gemäß die Angebote der Forschungsinfrastruktur nutzen können. 

Abbildung 3.5 führt die Offenheit dieses Konzepts („Kooperatives Modell“) 
vor Augen. DARIAH-DE und TextGrid kooperieren mit rund 90 Projekten, 
Arbeitsgruppen, Initiativen und anderen Forschungsinfrastrukturen (Stand: 
Juli 2017), die an unterschiedlichen Institutionen — Universitäten, Bibliotheken, 
Archiven, Akademien und außeruniversitären Forschungseinrichtungen - 
verortet sind, sowie teilweise mit den Institutionen selbst. Vorhaben und 
Projekte, die sich unmittelbar an der Weiterentwicklung von Komponenten von 
DARIAH-DE und TextGrid beteiligen, sind in den beiden Kreisen hinterlegt. Mit 
diesen werden in enger Abstimmung Entwicklungen in bestimmten Bereichen 
gemeinsam vorangetrieben. Alle anderen in der Grafik angegebenen For- 
schungsvorhaben, Drittmittelprojekte und sonstige Initiativen sind lockerer mit 
den Infrastrukturen verbunden. Sie nutzen beispielsweise einzelne Dienste, 
entwickeln Tools weiter oder erzeugen Forschungsdaten, die an DARIAH-DE 
zurückgespielt und so der Community zugänglich gemacht werden. Eine große 
Zahl an Projekten/Initiativen greift zudem auf Angebote sowohl von DARIAH- 
DE als auch TextGrid zurück. 


70 = Stefan Schmunk, Frank Fischer, Mirjam Blümm und Wolfram Horstmann 


Kooperationen im Kontext von DARIAH-DE und TextGrid 
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Abb. 3.5: Kooperatives Modell von DARIAH-DE (© DARIAH-DE 2017). 


Rund 59 Prozent der Kooperationen sind laufende Vorhaben (schwarz einge- 
färbt), rund 10 Prozent der Vorhaben befinden sich derzeit in Begutachtungs- 
prozessen (rot eingefärbt) und zirka 9 Prozent der Vorhaben stehen gerade im 
Antragsstadium bzw. kurz vor der Einreichung. Eine wachsende Zahl von 
Kooperationsprojekten (rund 22 Prozent) ist abgeschlossen und sichert ihre 
Projektergebnisse über DARIAH-DE und TextGrid. Es ist davon auszugehen, 
dass die Zahl in den nächsten Jahren weiter ansteigen wird, so dass DARIAH- 
DE dies in seinen Geschäftsmodellen berücksichtigen muss.?* 


6 Designprinzipien für digitale 
Forschungsinfrastrukturen 


DARIAH-DE und DARIAH-EU zeigen Modelle dafür auf, wie in den Geistes- und 
Kulturwissenschaften eine digitale Forschungsinfrastruktur gebaut, betrieben 


26 Einen Überblick zu den derzeit geführten Diskursen zu Nachhaltigkeit, siehe in: Blümm/ 
Schmunk/Gietz/Horstmann/Hiitter (2016). 
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und organisiert werden kann. Die besondere Bedeutung dieser Modelle liegt 
darin, dass die drei oben angesprochenen Herausforderungen adressiert und 
praktisch aufgezeigt werden: 1. die zunehmende Digitalisierung und das Daten- 
wachstum, 2. die dynamische Gestalt von digitalen Forschungsinfrastrukturen 
(im Unterschied zu Bauten und Großgeräten) und 3. die (bisher schwach ausge- 
bildeten) Betriebsförderungsmodelle. Hinzu kommt, dass im Unterschied zu 
digitalen Forschungsinfrastrukturen in den Natur- und Technikwissenschaften 
mit ihren Verbünden für Großgeräte und Experimentalumgebungen die For- 
schungsbasis von DARIAH häufig in der Einzelforschung liegt. Besonders 
deutlich wird die Ausbildung von geeigneten Designprinzipien in der Betrach- 
tung der Situation in Deutschland (siehe Abb. 3.5). 

Zum einen besteht das unabdingbare Primat einer interoperablen Infra- 
struktur, durch das Infrastrukturkomponenten wie Speicher, Authentifizierung, 
Software-Werkzeuge und Datenstrukturen projektweise angepasst werden, um 
im Ergebnis Daten und Quellen für die Forschung von hoher Diversität zu er- 
zeugen, die jedoch der Forschung disziplinenübergreifend zur Verfügung ge- 
stellt werden können. Zum anderen wurde eine Architektur der Partizipation 
etabliert, in deren Rahmen universitäre und außeruniversitäre Forschung, un- 
abhängig vom Organisationstyp und Forschungsfeld, stattfinden kann. Dies 
demonstriert, dass die Forschungsfrage entscheidend ist und nicht die Organi- 
sationsform oder das Förderformat, was besonders an der Durchdringung ver- 
schiedener Forschungsförderer abgelesen werden kann. Diese freie und eigen- 
bestimmte „Bestenauslese“ von Projektpartnern für die Bearbeitung einer 
Forschungsfrage repräsentiert nicht nur gelebte Wissenschaftsfreiheit, sondern 
zeigt eben auch, dass die Selbstorganisationsprinzipien der Wissenschaft und 
die Formierung von gemeinsamen, funktionierenden Informationsinfra- 
strukturen nicht im Widerspruch stehen. 

Die Designprinzipien des unabdingbaren Primats einer interoperablen 
Infrastruktur und einer Architektur der Partizipation können sogar als Blau- 
pause für die Natur- und Technikwissenschaften wertvoll sein, in denen es 
zwar teils gelungen ist - analog zu Bibliotheken und Archiven für das Schrift- 
gut — Informationsinfrastrukturen um experimentelle Großgeräte zu formieren 
(etwa im CERN), in denen jedoch kaum Informationsinfrastrukturen für die 
Einzelforschung existieren. Eingedenk des Umstandes, dass wissenschaftliche 
Innovationen dort entstehen, wo über Einzelforschung in bisher kaum betrach- 
teten Feldern agile, interdisziplinäre, länder- und institutionenübergreifende 
Verbünde entstehen, sind Modelle für Informationsinfrastrukturen für diese 
Rahmenbedingungen eine entscheidende Zukunftsaufgabe für die Wettbewerbs- 
fähigkeit von Wissenschaftsstandorten. 
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Abstract: Der Beitrag skizziert rezente Entwicklungen im Zusammenhang mit 
dem Aufbau digitaler Infrastrukturen ftir text- und sprachbasierte Forschung in 
Österreich und demonstriert anhand ausgewählter Beispiele das weite Spektrum 
unterschiedlicher digitaler Sprachressourcen, die in den letzten Jahren ent- 
standen sind. 


Keywords: Digitalisierung, Forschungswerkzeuge, Sprachkorpora, Vernetzung, 
Wörterbücher 


1 Vorbemerkungen 


Die pervasive Natur der „digitalen Revolution“ lässt digitale Sprachressourcen 
in vielerlei Gestalt in unseren Alltag vordringen. Dies trifft natürlich auch auf 
die Forschung zu, insbesondere auf alle text- und sprachorientierten Diszi- 
plinen. Was unter digitalen Sprachressourcen genau zu verstehen ist, wurde 
in der Literatur bislang auf unterschiedliche Weise abgehandelt. Es lassen sich 
zwei Ansätze unterscheiden: ein eher enger definierter Begriff versteht unter 
Sprachressourcen vor allem Sprachdaten, digitale Texte, Lexika und Meta- 
informationen über diese. 
Trippel, Declerck & Heid (2005) definieren Sprachressourcen als 


eine Klasse heterogener Informationen, die Gegenstand von Linguistik und Sprachtechno- 
logie sind, aber auch in Anwendungskontexten wie Übersetzung und Lexikonentwicklung 
gefragt sind. Dazu gehören Textkorpora, Lexika, Daten gesprochener Sprache, aber auch 
Annotationsrichtlinien und -verfahren. (Trippel, Declerck & Heid 2005: 17) 


Manche Definitionen gehen von einem weiteren Verständnis aus, welches das 
gesamte Repertoire an digitalen Werkzeugen, die zur Manipulation von 
Sprachdaten dienen, einschließt: 
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A Language Resource is any physical or digital item that is a product of language docu- 
mentation, description, or development, or is a tool that specifically supports the creation 
and use of such products. (Simons & Bird 2008: 88) 


Bereits Trippel, Declerck & Heid (2005) sprachen unterschiedliche Anwen- 
dungskontexte an. Dariiber hinaus nutzen unterschiedliche kultur- und sozial- 
wissenschaftliche Disziplinen ebenso Sprachressourcen, auch wenn sie nicht 
immer dieselbe Terminologie verwenden oder oft nicht explizit von Sprach- 
ressourcen sprechen. Eine Umfrage, die im Rahmen des Forschungsinfra- 
strukturkonsortiums CLARIN (Common Language Resources and Technology 
Infrastructure) durchgeführt wurde, hat gezeigt, dass die Nutzergruppe von 
Sprachressourcen aus den unterschiedlichsten Bereichen wie zum Beispiel der 
Linguistik, der Computerlinguistik, den Literaturwissenschaften, der Alt- 
philologie, der Geschichte, den Medienwissenschaften, der Ethnologie, der 
Lexikographie und den Politikwissenschaften, um nur einige zu nennen, 
kommt (vgl. Wynne 2015). Daher werden wir in unserem Beitrag versuchen, 
Sprachressourcen aus teilweise sehr unterschiedlichen Disziplinen zu präsen- 
tieren. Das diesem Papier zugrunde liegende Verständnis von Sprachressourcen 
folgt dem zweiten, weiteren Ansatz und umfasst sowohl Daten als auch rele- 
vante digitale Werkzeuge. 

An dieser Stelle sei darauf hingewiesen, dass der Umfang dieses Beitrags 
nur die ausgewählte Nennung von Projekten und Ressourcen zulässt. Wir kon- 
zentrieren uns dabei auf digitale Sprachressourcen, die rezent im akade- 
mischen Raum entstanden sind oder dort Verwendung finden. 


2 Infrastrukturen 


2.1 Von FLaReNet, META-NET und META-SHARE zu CLARIN-ERIC 


Zeitlich begrenzte Projekte stellen bekanntlich ein probates Mittel dar, die For- 
schung voranzutreiben; im Hinblick auf Infrastrukturen sind sie allerdings we- 
niger geeignet, Nachhaltigkeit sicherzustellen. In den Geisteswissenschaften 
kamen und gingen in den letzten Jahren zahllose Projekte, die an digitalen 
Infrastrukturen arbeiteten. ARIADNE, CENDARI, CHARISMA, DASISH, EHRI 
und NEDIMAH sind nur einige Beispiele dafür. Für digitale Sprachressourcen 
waren in diesem Zusammenhang insbesondere FLaReNet, META-NET und 
META-SHARE von Relevanz, in denen in Österreich vor allem die Universität 
Wien engagiert war. Hier können diese Aktivitäten als einer der Ausgangs- 
punkte für Entwicklungen gesehen werden, an deren Endpunkt etliche der 
noch zu besprechenden Projekte, die Gründung des Austrian Centre for Digital 
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Humanities an der Osterreichischen Akademie der Wissenschaften (ACDH- 
OeAW) und die Konstituierung des österreichischen Zweiges von CLARIN und 
DARIAH stehen. Auf europäischer Ebene stellte die Einrichtung des neuen 
Rechtskonstrukts der europäischen Forschungsinfrastrukturkonsortien, der 
ERICs (European Research Infrastructure Consortia), einen Versuch dar, mehr 
Nachhaltigkeit und längerfristige Operabilität in die Entwicklung von Infra- 
strukturen zu bringen. Seit 2012 ist CLARIN offiziell ein ERIC und darum 
bemüht, in den Mitgliedstaaten ein breites Spektrum an Technologien und Ser- 
vices für digitale Sprachdaten und Tools verfügbar zu machen. Eine der ersten 
österreichischen CLARIN-Aktivitäten war eine Umfrage zu digitalen Sprach- 
ressourcen, die im Jahr 2009 durchgeführt wurde. Diese Erhebung sollte den 
Status Quo in Österreich feststellen und konkrete Vorschläge für die Vorberei- 
tungs- und Aufbauphase des Netzwerkes in Österreich erarbeiten (Wissik & 
Budin 2010). 


2.2 CLARIAH-AT und dha 


In Österreich waren die aus der ESFRI-Roadmap hervorgegangen Aktivitäten 
von CLARIN und DARIAH (Digital Research Infrastructure for the Arts and 
Humanities) von allem Anfang an personell und institutionell stark verschränkt 
und wurden als Einheit konzipiert, was ein Höchstmaß an Synergien und Effi- 
zienz sicherstellen sollte. Während die Universität Wien bis 2013 die koordinie- 
rende Institution war, übernahm ab 2014 die Österreichische Akademie der 
Wissenschaften (ÖAW) im Auftrag des Bundesministeriums für Wissenschaft, 
Forschung und Wirtschaft (BMWFW) diese Aufgabe. Seit damals agiert die 
Kerngruppe unter dem Namen CLARIAH-AT. Nach außen tritt sie als virtuelles 
Netzwerk unter dem Namen Digital Humanities Austria (dha!) auf, das auch 
eine jährliche Konferenz veranstaltet. 

Eine der Maßnahmen, die auch im Rahmen der österreichischen CLARIN- 
und DARIAH-Aktivitäten angesiedelt waren, ist die von der ÖAW organisierte 
und aus Mitteln der Akademie, des BMWFW und der österreichischen National- 
stiftung für Forschung, Technologie und Entwicklung finanzierte goldigital- 
Förderschiene für innovative digitale Projekte. Bisher konnten in zwei Durch- 
gängen insgesamt 17 Projekte gefördert werden, die sich durch einen beson- 
ders hohen Grad an methodologischer Innovation auszeichneten und dazu 
angetan waren, nachhaltig in die österreichische Forschungslandschaft hinein 
zu wirken. 


1 www.digital-humanities.at (letzter Zugriff: 24.10. 2017). 


76 — Karlheinz Mérth und Tanja Wissik 


Auf der institutionellen Ebene ist auch die Griindung des Austrian Centre 
for Digital Humanities der ÖAW (ACDH-OeAW) im Jahre 2015 zu erwähnen, an 
dem digitale Sprach- und Literaturwissenschaften eine wichtige Rolle spielen. 
Text-technologische Verfahren und digitale Sprachressourcen nehmen im Port- 
folio des Instituts einen zentralen Platz ein. Dies und die Rolle des Instituts in 
CLARIAH-AT sind die Hauptgriinde dafiir, dass es in den folgenden Ausfiih- 
rungen eine prominente Stellung einnimmt. 


2.3 Werkzeuge und Dienste 


Wie eingangs bereits ausgeführt, gehen wir von einem weiten Begriff der 
Sprachressourcen aus, der auch digitale Werkzeuge zur Erzeugung, Modifika- 
tion, Präservation und Analyse digitaler Sprachdaten einschließt. 


2.3.1 GAMS, PHAIDRA, CCV: Langzeitarchivierung für Forschungsdaten 


Wichtige Eckpfeiler einer modernen digitalen Forschungsinfrastruktur sind 
Repositorien zur Langzeitspeicherung digitaler Forschungsdaten. Hier befin- 
den wir uns vielerorts erst in einer Aufbauphase, bestehende Strukturen sind 
kaum in der Lage, den in den letzten Jahren gewaltig gestiegenen Bedarf zu 
decken. Diskussionen drehen sich um den Gegensatz zwischen distribuierten, 
kleinen, institutionellen Lösungen und großen, zentral angelegten Datenzentren. 

Unter den institutionellen Repositorien in Österreich seien nur drei hervor- 
gehoben, die im geisteswissenschaftlichen Umfeld eine besondere Rolle spie- 
len. Das erste ist das Geisteswissenschaftliche Asset Management System 
(GAMS), welches am Zentrum für Informationsmodellierung — Austrian Centre 
for Digital Humanities an der Karl-Franzens-Universität Graz seit mehreren 
Jahren entwickelt und betrieben wird. Es ist dies ein OAIS-konformes FEDORA- 
basiertes System, das auf eine weitgehend XML-basierte Content-Strategie und 
zahlreiche systeminhärente Funktionalitäten zur Verwaltung und Publikation 
der digitalen Daten baut (GAMS 2017). Die an GAMS arbeitende Gruppe ist auch 
stark in CLARIAH-AT und DARIAH.EU involviert. 

Das PHAIDRA-Repositorium (Permanent Hosting, Archiving and Indexing of 
Digital Resources and Assets) wird seit einigen Jahren an der Universität Wien 
entwickelt und mittlerweile an über einem Dutzend weiterer Institutionen im 
In- und Ausland verwendet (Blumesberger 2010). Wie GAMS baut es auf FEDORA 
auf. 
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Zuletzt sei noch das erste offizielle CLARIN-Zentrum in Osterreich, das 
CLARIN Centre Vienna (CCV), erwähnt, welches als Repositorium für digitale 
Sprachressourcen seit 2014 vom ACDH-OeAW betrieben wird. 


2.3.2 ACDH-Tools: VLE, tokenEditor 


Am ACDH-OeAW wurde in den letzten Jahren im Rahmen zahlreicher Projekte 
auch an digitalen Tools und Services gearbeitet. Beispielhaft seien der Viennese 
Lexicographic Editor (VLE) und der tokenEditor erwahnt. 

VLE ist ein XML-Editor, der zum kollaborativen Arbeiten an lexikographi- 
schen Daten dient. Er wurde im Rahmen mehrerer lexikographischer Projekte 
entwickelt und verfügt über eine Reihe spezialisierter Funktionen, die typi- 
scherweise bei der Bearbeitung lexikographischer Daten Verwendung finden. 
Grundsätzlich für jede Art von XML-Daten verwendbar sind viele Funktionen 
besonders auf das Datenmodell der TEI hin optimiert. Aus den unterschied- 
lichen Projekten heraus entstanden mehrere spezielle Module: so verfügt VLE 
über einen integrierten Book Reader und einen Internetbrowser, die den direk- 
ten Zugriff auf externe Quellen (Corpora, Wörterbücher etc.) ermöglichen. 
Rezente Versionen haben ein Modul, mit dessen Hilfe man in komfortabler 
Art und Weise einen Webauftritt für sein Wörterbuch erstellen kann, und ein 
Modul namens tokenEditor, welches es ermöglicht, Textcorpora komfortabel 
mit lexikalischen Informationen anzureichern. 

Der tokenEditor des VLE war eine Vorform des webbasierten tokenEditors, 
der über die ACDH-OeAW Website? verfügbar ist und in zahlreichen Projekten 
zur manuellen Nachbearbeitung automatisch erzeugter Annotationen wie POS- 
Tags oder Lemma eingesetzt wird. 


2.3.3 Transkribus: Texterkennung der nächsten Generation 


Transkribus ist eine institutionell in Innsbruck verortete Initiative, die eine um- 
fassende Plattform zur Erkennung und Transkription historischer Dokumente 
entwickelt hat. Die Plattform besteht aus drei wesentlichen Modulen: einem 
Expertenprogramm, einem Webinterface? und verschiedenen Diensten, die auf 
den Servern der Universität Innsbruck eingerichtet wurden. Transkribus stellt 
eine Reihe von Werkzeugen und Dienste für die automatisierte Erfassung von 


2 https://www.oeaw.ac.at/acdh/tools/tokeneditor/ (letzter Zugriff: 24.10. 2017). 
3 http://transkribus.eu/ (letzter Zugriff: 24.10. 2017). 
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Dokumenten zur Verfügung, darunter eine computergestützte Handschriftener- 
kennung, Bilderkennung und Strukturerkennung. Die Plattform ist für alle Be- 
nutzer frei zugänglich (Transkribus 2016). Die Entwickler der Plattform sind 
auch intensiv an CLARIAH-AT beteiligt. 


3 Texte und Corpora 


Die folgende Zusammenstellung unterschiedlicher Einzelprojekte und Res- 
sourcen soll die weite Palette und große disziplinäre Vielfalt, in der moderne 
Corpustechnologie entsteht und zur Anwendung kommt, sichtbar machen. 


3.1 Vienna-Oxford International Corpus of English (VOICE) 


Eine besonders bemerkenswerte strukturierte Sammlung digitaler Sprachdaten 
stellt das VOICE-Corpus dar, das erste maschinenlesbare Corpus, das der Erfor- 
schung von Englisch als Lingua franca gewidmet ist. Es wurde am Institut für 
Anglistik der Universität Wien erstellt, umfasst 151 Sprachereignisse von 
1.300 Sprecherinnen und Sprechern mit 50 unterschiedlichen Erstsprachen. 
Mit einem Umfang von einer Million Token ist das seit 2009 online verfügbare, 
in TEI-P5 kodierte Corpus eine Ressource, die in zahlreichen einschlägigen 
Untersuchungen Verwendung gefunden hat (Breiteneder et al. 2009; Osimk- 
Teasdale 2013). 


3.2 BAnca Dati dell’Italiano Parlato (BADIP) 


Das romanistische Institut der Karl-Franzens-Universität Graz bietet mit annä- 
hernd einer halben Million Wörtern seit vielen Jahren Zugang zu einem der 
größten Corpora des gesprochenen Italienisch. Das LIP (Lessico di frequenza 
dell’italiano parlato) Corpus enthält ca. 57 Stunden Gesprächsaufnahmen von 
bi-direktionaler Face-To-Face-Kommunikation mit freiem Sprecherwechsel 
(Gespräche zu Hause, in der Arbeit, in der Schule), bi-direktionaler computer- 
vermittelter Kommunikation mit freiem Sprecherwechsel (z. B. Telefongesprä- 
che), bi-direktionaler Face-To-Face-Kommunikation mit reglementiertem 
Sprecherwechsel (z.B. Parlamentssitzungen, Prüfungen, Interviews), mono- 
direktionale Kommunikation (z.B. wissenschaftliche Vorträge, politische 
Reden) sowie Radio- und Fernseh-Kommunikation (z.B. Radio- und Fernseh- 
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sendungen). Das transkribierte Corpus (ca. 490.000 Token) ist reich annotiert 
(Bellini & Schneider 2006), das Interface* erlaubt auch, nach Textsorten und 
Orten zu suchen. 


3.3 Speech-Corpora des Instituts für Signalverarbeitung 
und Sprachkommunikation 


Umfangreiche Speech-Corpora wurden in den letzten Jahren auch an der 
Technischen Universität Graz am Institut für Signalverarbeitung und Sprach- 
kommunikation? erstellt, wie z.B. das Austrian German Multi-Sensor Corpus 
(AMISCO) oder das Graz Corpus of Read And Spontaneous Speech (GRASS). 

Das AMISCO Corpus® beinhaltet die Audio- und Video-Aufnahmen (ca. 
8,2 Stunden) und orthographische Transkriptionen (ca. 53.000 Token) von 24 
sich im Raum bewegenden und nicht bewegenden Sprechern und Sprecherin- 
nen (Pessentheiner, Pichler & Hagmiiller 2016). Das GRASS Corpus beinhaltet 
Aufzeichnungen und orthographische Transkriptionen von spontaner Kommu- 
nikation sowie Leseaufgaben von 38 Sprecherinnen und Sprechern, die in Ös- 
terreich geboren und aufgewachsen sind (Schuppler et al. 2014). 


3.4 Digitale Sammlung der Grazer Linguistischen Slawistik 
(Gralis-Korpus) 


Das Gralis-Korpus beinhaltet eine mehrsprachige und multifunktionale Samm- 
lung von digitalen Texten, Audio-, Video-, TV- und anderen Daten, die für lin- 
guistische Untersuchungen zu slawischen Sprachen gesammelt und aufberei- 
tet wurden. Es ist ein Projekt des slawistischen Instituts der Karl-Franzens- 
Universität Graz und wie auch das BADIP-Corpus durch eine enge Kooperation 
mit dem Zentrum für Informationsmodellierung in den Geisteswissenschaften 
möglich geworden. Das Gralis-Korpus’ ist so angelegt, dass es als ein-, aber 
auch als mehrsprachiges Corpus (Parallelisierung von mindestens zwei slawi- 
schen Sprachen oder Parallelisierung einer slawischen Sprache und Deutsch) 


4 http://badip.uni-graz.at/en/ (letzter Zugriff: 23.10. 2017). 

5 Signal Processing and Speech Communication Laboratory (SPSC Lab) https://www.spsc. 
tugraz.at// (letzter Zugriff:20. 11. 2017). 

6 https://www.spsc.tugraz.at/tools/amisco (letzter Zugriff: 23.10. 2017). 

7 http://www-gewi.uni-graz.at/gralis/korpusarium/gralis_korpus.html (letzter Zugriff: 24.10. 
2017). 
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eingesetzt werden kann. Es besteht aus zwei großen Teilen, dem Gralis Speech- 
Korpus und dem Gralis Text-Korpus. Das Gralis Speech-Korpus besteht aus tran- 
skribierten Audioaufnahmen während das Gralis Text-Korpus neben parallelen 
Textcorpora auch Corpora der Werke von Literaten wie etwa Ivo Andrić, Zoran 
Živković u.a. enthält (ToSovié 2017). 


3.5 Austrian Media Corpus (AMC) 


Das Austrian Media Corpus (AMC) ist Österreichs umfangreichstes linguistisch 
aufbereitetes digitales Corpus, das aus einer Kooperation zwischen der ÖAW 
und der Austria Press Agency (APA) hervorgegangen ist. Das AMC umfasst un- 
terschiedliche journalistische Textsorten von 1986 bis heute (regionale und 
überregionale Tageszeitungen, Magazine, Pressemitteilungen, transkribierte 
Fernsehinterviews u.ä. m.) (vgl. Ransmayer, Mörth & Ďurčo 2013). Beim AMC 
handelt es sich um ein Monitorcorpus, welches laufend erweitert wird und aktu- 
ell 40 Millionen Artikel aus 53 Medien (Zeitungen, Magazine, TV-Transkripte), 
in Summe an die 10 Milliarden Token, beinhaltet. Die Rohdaten wurden mit 
linguistischen Basisannotationen versehen und in eine Infrastruktur überführt, 
die diese auch im internationalen Vergleich sehr umfängliche Sprachressource 
für linguistische Auswertungen zugänglich macht. Die Analysewerkzeuge er- 
möglichen neben der Erzeugung klassischer Konkordanzlisten auch Abfragen 
mittels morphosyntaktischer Muster, die Ermittlung von Wortähnlichkeiten 
und Erstellung von Konkordanzprofilen. Durch die verfügbaren Metadaten ist 
es möglich, die Abfrage auf spezifische Medien oder Ressorts sowie bestimmte 
Zeiträume oder Regionen zu beschränken und somit adhoc Subcorpora für die 
jeweiligen Analysen zu erstellen. Anwendungsbeispiele reichen von klassischen 
lexikographischen und linguistischen Fragestellungen (Ransmayr et al. 2016; 
Werner 2017) bis hin zu Forschungsfragen, die an der Schnittstelle zwischen 
Wirtschaftswissenschaften und computerbasierter Sprachanalyse liegen (Atz & 
Gerstbauer 2017). 


3.6 Transbank 


Das gerade in Angriff genommene Projekt Transbank ist am Zentrum für Trans- 
lationswissenschaften der Universität Innsbruck angesiedelt und zielt darauf 
ab, eine großes, offenes und erweiterbares Corpus von übersetzten Texten und 
ihren Originalen aufzubauen. Die Daten werden auf Satzebene aligniert und 
mit Metadaten versehen, die auch translationsspezifische Informationen ent- 
halten (Lusicky et al. 2017). Das Projekt wird eine Sprachressource schaffen, 
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die Daten, die fragmentiert an verschiedenen Orten bereits vorhanden sind, 
zusammenführt und für unterschiedliche Nutzergruppen und Forschungs- 
fragen frei zugänglich macht (Transbank 2017). 


3.7 INPUT und ADS: Kindersprache und Spontansprachcorpora 


In die Reihe an Spezialsammlungen gehören auch die Kindersprachcorpora, 
die in den letzten zwei Jahrzehnten aus den Arbeiten der Arbeitsgruppe für 
Komparative Psycholinguistik am Institut für Sprachwissenschaft der Univer- 
sität Wien hervorgegangen sind. Neben longitudinalen Spontansprachdaten 
von Wiener Kindern ist besonders das INPUT-Corpus (Investigating Parental 
and Other Caretakers’ Utterances to Kindergarten Children) zu erwähnen, wel- 
ches Aufnahmen von 61 Wiener Kindern im Alter von 3 bis 4,5 Jahren und ihrer 
Bezugspersonen enthält und in der Zeit von 2012 bis 2016 erstellt wurde. Auch 
beim Wiener ADS-Corpus (ADS steht für adult-directed speech) handelt es sich 
um eine sehr aktuelle Sprachdatensammlung, von etwas mehr als 57 Stunden 
Aufnahmen, an deren Transkription und Kodierung noch einige Zeit gearbeitet 
werden wird (Korecky-Kröll 2017). 


3.8 travelldigital: Semantik mit anthroplogischem Blick 


Im Rahmen des Projekts travelldigital wurde in den Jahren 2016-2017 eine 
digitale Sammlung früher deutschsprachiger Reiseführer außereuropäischer 
Länder (1875-1914) erstellt. Es entstand eine moderne in TEI-P5 ausgezeichnete 
Sprachressource, die neben linguistischen Basisannotationen (POS, Lemmata) 
auch semantische Informationen enthält. Inhaltlich wurde zu Fragen der 
kulturellen Repräsentation und identitätsstiftender Diskurse geforscht, wobei 
eine umfängliche Taxonomie der im Corpus erwähnten Personengruppen und 
Baudenkmäler erarbeitet wurde. Technologisch wurde mit zeitgemäßer RDF- 
basierter Technologie, insbesondere dem immer populärer werdenden Stan- 
dard SKOS (Simple Knowledge Organization System) gearbeitet (Czeitschner & 
Krautgartner 2017). Als go/digital-Projekt war travel!digital von allem Anfang 
an als Teil der österreichischen CLARIN- und DARIAH-Aktivitäten konzipiert. 
Seit Dezember 2016 ist ein erstes Versuchsinterface online, das Teile dieses 
Corpus öffentlich zugänglich macht.® 


8 https://baedeker.acdh.oeaw.ac.at/ (letzter Zugriff: 24.10. 2017). 
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3.9 Austrian Baroque Corpus (ABaC:us) 


Ein weiteres Beispiel fiir eine digitale Sprachressource, die nicht im engeren 
linguistischen Bereich entstanden ist, sehr wohl aber mit viel linguistischem 
Know-how erstellt und mit umfangreichen linguistischen Annotationen ange- 
reichert wurde, ist das Austrian Baroque Corpus, das mehrere Werke enthält, 
die dem Prediger und Schriftsteller Abraham a Sancta Clara (1644-1709) zuge- 
schrieben werden (Resch & Czeitschner 2015). Die in ABaC:us vereinten histo- 
rischen Texte stammen aus dem Zeitraum von 1650-1750 und lassen sich der 
Periode des älteren Neuhochdeutsch zuordnen. Das Corpus ist das Resultat 
interdisziplinärer Arbeit, in der historisch-literaturwissenschaftlich-linguistische 
Fragen mit texttechnologischen Interessen kombiniert wurden. Im Rahmen des 
Projekts Texttechnologische Methoden zur Analyse österreichischer Barock- 
literatur? wurde an Tools und Workflows für historische und nicht standar- 
disierte linguistische Varietäten gearbeitet. Eines der Tools, die im Rahmen von 
ABaC:us intensiv weiterentwickelt wurden, ist der zuvor bereits beschriebene 
tokenEditor, mit dessen Hilfe die Gesamtheit der Wortklasseninformation des 
Corpus manuell überprüft werden konnte (Resch 2017). Die Textsammlung ist 
über eine Applikation online zugänglich und für wissenschaftliche Forschung 
frei nutzbar.!° 


4 Lexikographie 


Auch immer mehr im akademischen Bereich kompilierte Wörterbücher werden 
unter Zuhilfenahme digitaler Hilfsmittel erzeugt und publiziert. 


4.1 Romani Lexicon Project (ROMLEX) 


Ein bemerkenswertes internationales Projekt, an dem österreichische Wissen- 
schaftlerinnen und Wissenschaftler maßgeblich beteiligt waren und sind, ist 
das internationale Romani Lexicon Projekt (ROMLEX). ROMLEX ist eine lexika- 
lische Datenbank, die eine Zahl von mindestens 25 Varietäten des Romani 
abdeckt. Die Einträge sind durchwegs mit englischen Übersetzungen resp. 
Übersetzungen in andere Sprachen (15 an der Zahl) versehen. Nach einer Auf- 


9 Jubiläumsfonds der Österreichischen Nationalbank, Projekt Nr. 14738. 
10 https://acdh.oeaw.ac.at/abacus/ (letzter Zugriff: 24.10. 2017). 
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bauphase in den Jahren von 1998 bis 2001, in denen ausschließlich öster- 
reichische Varietäten aufgenommen wurden, wurde die Datenbank auf zahl- 
reiche weitere Varietäten ausgeweitet (Halwachs, Schrammel & Rader 2006). 
Die Datenbank ist über ein online Interface abfragbar." 


4.2 TUNICO: die Schnittstelle zwischen Wörterbuch 
und Corpus 


Seit mehreren Jahren arbeitet das Orientalistische Institut der Universität Wien 
in unterschiedlichen Projekten mit der ÖAW zusammen, zuerst mit dem Institut 
für Corpuslinguistik und Texttechnologie, später dann mit dem ACDH-OeAW, 
und war bestrebt, viele seiner Forschungen, auf eine moderne technologische 
Basis zu stellen. Eines dieser Projekte ist das Vienna Corpus of Arabic Varieties 
(VICAV), welches eine virtuelle auf die speziellen Bedürfnisse der Community 
zugeschnittene Forschungsplattform ist. Das Hauptinteresse liegt auf lexika- 
lischen Informationen, die Beschreibung der linguistischen Varietäten erfolgt 
unter anderem durch standardisierte Sprachprofile, die neben Basisinforma- 
tionen zu den jeweiligen Varietäten auch Eckdaten zur Forschungsgeschichte, 
zur verfügbaren Literatur etc. bieten. Neben einer umfassenden Bibliographie 
findet man auf der Webseite Wörterbücher, Glossare und unterschiedliche 
Arten transkribierter Texte (Prochazka & Mörth 2017). 

Ein Projekt, das aus VICAV heraus entwickelt wurde, ist TUNICO (Linguistic 
dynamics in the Greater Tunis Area: a corpus-based approach). Methodologisch 
war das Projekt an der Schnittstelle zwischen traditioneller Dialektologie und 
moderner Sprachtechnologie angesiedelt und produzierte zwei digitale Sprach- 
ressourcen: ein Corpus des modernen gesprochenen Tunesischen und ein 
micro-diachrones Wörterbuch. Das Corpus, das sowohl Konversationen als 
auch Narrative enthält, ist das einzige umfangreichere transkribierte Corpus 
einer arabischen Varietät, das frei zugänglich ist. 

Das TUNICO-Wörterbuch basiert zum Teil auf dem neuen Corpus, enthält 
aber auch lexikalisches Material, das aus anderen Quellen stammt. Es wurden 
sowohl gezielte Befragungen von Informanten als auch historische gedruckte 
Beschreibungen aus der Mitte und dem frühen 20. Jahrhundert in das Wörter- 
buch eingearbeitet. Ein spezieller Fokus des Projekts lag auf dem Interface 
zwischen Wörterbuch und Corpus, die in der technischen Implementierung 
eng verknüpft wurden. Es ist möglich, aus dem Wörterbuch heraus direkt ins 
Corpus zu navigieren, und umgekehrt sind die Wortformen des Corpus mit 


11 http://romani.uni-graz.at/romlex/lex.xml (letzter Zugriff: 23.10. 2017). 
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dem Wörterbuch verknüpft. Während des Projekts wurde viel Zeit in die ma- 
nuelle Korrektur dieser Verlinkungen investiert (Mörth, Prochazka & Dallaji 
2014). 


4.3 Deutschsprachige Lexikographie in Österreich 


Die deutschsprachige Lexikographie ist in Österreich vor allem durch zwei 
ziemlich unterschiedliche lexikographische Unternehmungen repräsentiert, 
dem im akademischen Bereich angesiedelten Wörterbuch der bairischen Mund- 
arten in Österreich (WBO) und dem Österreichischen Wörterbuch (ÖWB).'? 

Das Institut, welches an der Wiege des WBÖ stand, war die im Jahre 1911 
gegründete Kommission zur Schaffung des Österreichisch-Bayerischen Wörter- 
buches an der Österreichischen Akademie der Wissenschaften. Inhaltlich steht 
das WBÖ in der Reihe der großlandschaftlichen Wörterbücher zur Erschlie- 
ßung der Varietäten des Deutschen. Während die Lieferungen dieses Wörter- 
buchs bislang nur in analoger Form erschienen, gab es seit 1993 gezielte 
Anstrengungen, die Materialbasis, den sogenannten Hauptkatalog des WBO, 
in digitaler Form zu erschließen. Hierzu wurde der Inhalt des Katalogs (ge- 
schätzte 2,5 Millionen Karteikarten) mit den historischen Belegen schrittweise 
transkribiert und in eine digitale Datenbank überführt. 

Weder das Druckwerk noch die Datenbank als solche konnten bis dato 
zum Abschluss gebracht werden. Nachdem das Wörterbuch das Schicksal 
vieler vergleichbarer Projekte teilte und die Arbeiten Ende 2015 gänzlich zum 
Erliegen kamen, nahm die Österreichische Akademie der Wissenschaften im 
Frühjahr 2016 einen ganz neuen Anlauf und richtete am ACDH-OeAW eine 
eigene Forschungsabteilung unter dem Namen Variation und Wandel des 
Deutschen in Österreich ein, zu dessen Aufgaben die Fortsetzung des Wörter- 
buchprojekts zählt. Mit vollständig erneuerter Mannschaft wird das Projekt 
nunmehr unter Zuhilfenahme moderner Sprachtechnologie auf ganz neue 
Beine gestellt. Ziel ist es, lexikalische Daten sowohl analog als auch digital 
verfügbar zu machen. Das Projekt baut dabei auf die digitalen Infrastrukturen 
des ACDH-OeAW auf. Das Wörterbuch wird als Teil einer größeren webbasier- 
ten lexikographischen Forschungsplattform konzipiert. 


12 Das Österreichische Wörterbuch (ÖWB) wird vom Österreichischen Bundesverlag (Ernst 
Klett-Verlag Leipzig/Stuttgart) produziert und vertrieben. 
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5 Terminologie 


Die meisten der nachfolgenden terminologischen Ressourcen wurden zwar im 
akademischen Raum, zumeist im Rahmen von Forschungsprojekten, erstellt, 
haben aber sehr oft auch Nutzungsszenarien außerhalb der Forschung im 
Blick. 


5.1 AsylTermbank 


Im Rahmen des AsylTerm-Projektes, das von Oktober 2007 bis August 2008 
vom Institut fiir Translationswissenschaft der Universitat Graz und dem 
Zentrum fiir Translationswissenschaft der Universitat Wien in Kooperation 
mit dem Bundesasylamt, dem Unabhängigen Bundesasylsenat und dem 
UN-Flüchtlingshochkommissariat UNHCR in Österreich durchgeführt wurde, 
wurde die Terminologie des österreichischen Asylverfahrens erfasst und eine 
Terminologiedatenbank zur österreichischen Asylterminologie, die sogenannte 
AsylTermbank angelegt, die online über ein Interface zugänglich ist (Termbase- 
Finder 2016). Gefördert wurde das Projekt durch den Europäischen Flüchtlings- 
fonds (EFF) und UNHCR Österreich. Das AsylTerm-Projekt hatte die Aufgabe, 
einen Beitrag zur Qualitätssicherung im Bereich translatorischer Dienstleis- 
tungen im Asylwesen zu leisten. Die AsylTermbank ist zwar eine mehrsprachige, 
aber monodirektionale Terminologiedatenbank. Ausgehend von der öster- 
reichischen Rechtsordnung wurde die österreichische Terminologie des Asyl- 
verfahrens deskriptiv erfasst und die Übersetzungen für Arabisch, Englisch, 
Französisch, Russisch und Serbisch festgelegt (Hebenstreit et al. 2009). Das 
heißt, die Terminologie in den anderen Sprachen ist nicht durch einen Rechts- 
vergleich auf Microebene zwischen dem österreichischen Asylrecht und den 
Zielrechtsordnungen entstanden (Chiocchetti et al. 2013) 


5.2 Innsbrucker Termbank 2.0 


Die Innsbrucker Termbank 2.0 beinhaltet die terminologischen Diplom- und 
Masterarbeiten, die von Studierenden des Instituts für Translationswissen- 
schaft der Universität Innsbruck verfasst wurden. Laut Webseite beinhaltet die 
Terminologiedatenbank zurzeit insgesamt 30.725 zwei- oder mehrsprachige 
Einträge aus 25 Fachbereichen in den Sprachen Deutsch, Englisch, Franzö- 
sisch, Italienisch, Spanisch und Russisch. In der Datenbank können Fach- 
wörter zum Thema Abwasserreinigung und Baumaterialien genauso gefunden 
werden wie Termini aus dem Bereich der Käseproduktion, des Wertpapier- 
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handels oder des Sports. Da die Daten aus unterschiedlichen Diplom- und 
Masterarbeiten stammen, gibt es unterschiedliche Eintragsstrukturen. Jedoch 
beinhalten alle Einträge die Angabe des Fachbereichs, den ausgangssprach- 
lichen und den zielsprachlichen Terminus sowie die Begriffsdefinition und die 
Quelle, aus der die Definition stammt (Innsbrucker Termbank 2.0 2015). 


5.3 RisikoTermbank 


Die RisikoTermbank entstand im Projekt Wide Information Network to Improve 
Risk Management (WIN). Das WIN-Projekt lief von 2004-2008, und ein Work- 
package war auf die Erstellung von Tools zur Unterstützung der mehrsprachigen 
Kommunikation im Bereich Risiko- und Krisenmanagement ausgerichtet, an 
dem die Université Marc Bloch Strasbourg, die Universität Wien, die Univer- 
sität Duisburg-Essen und Technische Universität Chemnitz beteiligt waren. 
Die RisikoTermbank hatte als Nutzergruppe Risikomanager und Bauingenieure 
im Blick, sollte aber auch von Lehrenden, Studierenden, Übersetzern und 
Übersetzerinnen sowie Journalistinnen und Journalisten genutzt werden. Die 
ca. 230 Begriffe aus dem Risikomanagement wurden aus einschlägiger Fach- 
literatur und aus einem mehrsprachigen Vergleichscorpus extrahiert (Budin 
2011). Die Termbankeinträge sind über Begriffsbeziehungen miteinander ver- 
knüpft (z.B. is cause of, has cause). Die RisikoTermbank ist auf der Website des 
Zentrums für Translationswissenschaft öffentlich zugänglich (TermbaseFinder 
2016). 


6 Conclusio 


Sowohl die Zahl an seriös produzierten digitalen Sprachdaten als auch an digi- 
tal gestützten Projekten ist in den letzten Jahren stark gestiegen. In vielen Be- 
reichen der Forschung ist der Einsatz digitaler Sprachressourcen nicht mehr 
wegzudenken und mittlerweile Teil des Standardrepertoires an zeitgemäßen 
Forschungsmethoden geworden. Positiv zu vermerken ist des Weiteren, dass 
das Bewusstsein um Open Access und Open Source immer verbreiteter wird und 
dadurch immer mehr nachnutzbare Ressourcen verfügbar werden. 
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Il Sprachwissenschaft und Sprachtechnologie 


Hannah Kermes und Elke Teich 
5 Generische Infrastruktur und spezifische 
Forschung: Angebote und Lösungen 


Abstract: Die empirische Forschung an natiirlichsprachlichen Daten geht mit 
grundlegenden methodischen Veränderungen einher. Immer mehr Texte stehen 
in digitaler Form zu Verfügung. Eine rein manuelle Vorgehensweise ist nicht 
möglich oder extrem zeitaufwendig. Wir zeigen welche Vorteile der Einsatz von 
generischen Infrastrukturkomponenten für spezifische Forschung haben kann: 
(i) effiziente Untersuchungen auf größeren Datenmengen, (ii) reproduzierbare 
und übertragbare Ergebnisse. Wir zeigen an einer konkreten Studie, wie generi- 
sche Infrastruktur spezifisch angepasst und durch spezifische Lösungen ergänzt 
werden kann. 


Keywords: Annotation, Empirie, Sprachkorpora, Textanalyse, XML 


1 Einleitung 


Die empirische Forschung an natürlichsprachlichen Daten geht mit grund- 
legenden methodischen Veränderungen einher (cf. Biber, Conrad & Reppen 
1998: Kapitel 1; McEnery, Xiao & Tono 2006: 3-4). Immer mehr Texte stehen 
in digitaler Form zu Verfügung, ob über Plattformen wie Wikisource,’ durch 
Projekte wie Project Gutenberg,” das Deutsche Text Archiv? oder das Linguistic 
Data Consortium.* Es gilt, im Hinblick auf eine Forschungsfrage in einer gro- 
ßen Menge an Ausgangsdaten Relevantes zu finden und zu extrahieren. Das 
Resultat sind oft große, zumeist multidimensionale Datensätze, die analysiert 


1 http://wikisource.org/ (letzter Zugriff: 22. 4. 2018). 

2 http://www.gutenberg.org/ (letzter Zugriff: 22.4. 2018). 

3 http://www.deutschestextarchiv.de/ (letzter Zugriff: 22.4. 2018). 
4 https://www.ldc.upenn.edu/ (letzter Zugriff: 22. 4. 2018). 
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unseren Kollegen Peter Fankhauser, Stefan Fischer und Jörg Knappen. 
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und schließlich interpretiert werden müssen. Eine rein manuelle Vorgehens- 
weise ist in der Regel nicht möglich oder extrem zeitaufwendig. Zudem macht 
die Komplexität der einzelnen Verarbeitungsschritte den Einsatz von generi- 
schen bzw. automatischen Werkzeugen notwendig (cf. McEnery, Xiao & Tono 
2006: Kapitel 1; Lemnitzer & Zinsmeister 2010: Kapitel 4). Nicht zuletzt ist der 
Einsatz von generischer Infrastruktur auch bezüglich Reproduzierbarkeit und 
Übertragbarkeit sinnvoll. 

Forschungsinfrastrukturen wie CLARIN-D? und Plattformen wie Gate 
oder NLTK’ haben sich darauf spezialisiert, sprachtechnologische Werkzeuge 
und Sprachressourcen zur linguistischen Annotation (z.B. Wortartenannota- 
tion, syntaktischen oder semantischen Annotation) und zur Textanalyse für 
eine breite Zielgruppe zugänglich zu machen. Die Problematik liegt darin, 
die Angebote generischer Infrastruktur für die speziellen Anforderungen der 
eigenen Forschung nutzbar zu machen. Es gilt daher zunächst generische 
und spezifische Komponenten einer Studie zu identifizieren. Generische 
Komponenten sind z.B. vorhandene Corpora, Corpusabfragewerkzeuge oder 
Werkzeuge für die Corpusanalyse, aber auch Werkzeuge für die linguistische 
Annotation oder die OCR-Fehlerkorrektur. Spezifische Komponenten sind 
etwa das zu untersuchende linguistische Phänomen, aber auch eine spezielle 
Textgrundlage. Dabei stellen sich folgende Fragen: Wo können generische 
Komponenten eingesetzt werden, wo müssen spezifische Lösungen gefunden 
werden und wie können generische und spezifische Komponenten mitein- 
ander verknüpft werden? 

Im Folgenden werden wir zunächst die allgemeine Vorgehensweise bei einer 
corpuslinguistischen Studie im Hinblick auf das Zusammenspiel von generi- 
scher Infrastruktur und spezifischen Lösungen diskutieren. Danach werden wir 
anhand einer konkreten Studie beschreiben, wie dieses Zusammenspiel in der 
Realität aussehen kann, von der Aufbereitung der Ausgangsdaten (Vor- 
verarbeitung und Annotation des Corpus (Abschnitt 3.1) bis zur Datenanalyse 
(Abschnitt 3.4). 


6 


2 Methodik, Arbeitsabläufe und Angebote 


In der Corpuslinguistik wird ein sprachliches Phänomen quantitativ und quali- 
tativ anhand einer geeigneten Textgrundlage untersucht. Dazu werden rele- 


5 https://www.clarin-d.de/ (letzter Zugriff: 22. 4. 2018). 
6 https://gate.ac.uk/ (letzter Zugriff: 22.4. 2018). 
7 http://www.nltk.org (letzter Zugriff: 22.4. 2018). 
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vante Beobachtungen extrahiert und anschließend analysiert und interpretiert. 
Die Auswahl der Textgrundlage ist dabei von dem zu untersuchenden Phäno- 
men abhängig. Existiert kein geeignetes Corpus, so muss eines erstellt werden. 
Corpuslinguistische Studien lassen sich daher in zwei Hauptbereiche aufteilen: 
(i) die Corpuserstellung und (ii) die Corpusanalyse. Im Folgenden wollen wir 
nun darauf eingehen, wie generische Infrastruktur diese beiden Bereiche un- 
terstützen kann und wo spezifische Lösungen gefunden werden müssen. 


2.1 Corpuserstellung 


Die Corpuserstellung gliedert sich in zwei Schritte: (i) die Vorverarbeitung und 
(ii) die linguistische Annotation. Dabei gehen wir von bereits digitalisierten 
Texten® aus und nehmen auch an, dass die Texte bereits ausgewählt und zu 
einer Textsammlung (Corpus) zusammengestellt wurden (cf. Lemnitzer & 
Zinsmeister 2010: Kapitel 3; McEnery, Xiao & Tono 2006: Kapitel 2). Eine solche 
digitalisierte aber ansonsten noch nicht weiterverarbeitete Textsammlung 
bezeichnen wir als Ausgangsdaten. 

Bei der Weiterverarbeitung sind nun zwei Aspekte zu berücksichtigen. 
Erstens sind in der Regel in neu zusammengestellten Corpora Texte anderer 
Textsorten, Register, Zeitperioden oder Autoren enthalten als in bereits existie- 
renden Corpora. Die über eine Infrastruktur bereitgestellten Verarbeitungs- 
komponenten, wie z.B. Wortartentagger, sind aber in der Regel auf der Allge- 
meinsprache (z.B. auf Zeitungstexten) trainiert. Je mehr die Texte in einem 
neu zusammengestellten Corpus von der Allgemeinsprache abweichen, desto 
wahrscheinlicher ist es, dass generische Komponenten nicht das gewünschte 
Ergebnis liefern (geringe Abdeckung, hohe Fehlerrate). In diesem Fall müssen 
die generischen Komponenten spezifisch angepasst bzw. ergänzt werden. 

Im Folgenden werden die einzelnen Komponenten der Corpuserstellung 
anhand der schematischen Darstellung in den Abbildungen 5.1 (Vorverarbei- 
tung) und 5.2 (linguistische Annotation) hinsichtlich des Einsatzes von gene- 
rischen Komponenten und spezifischen Lösungen näher diskutiert, wobei 
sowohl auf automatische Werkzeuge als auch auf manuelle Methoden ein- 
gegangen wird. Dabei gehen wir zunächst auf die Vorverarbeitung ein (Ab- 
schnitt 3.2), die sich in Datenkonversion (Überführung der Ausgangsdaten in 
ein standardisiertes Format) und Datenbereinigung (Lösung von Layoutproble- 
men und OCR Fehlerkorrektur) gliedert. Auf die Anreicherung mit Metadaten, 


8 Als ein Beispiel für den Arbeitsablauf bei der Digitalisierung von Texten sei auf den Digitali- 
sierungsworkflow des Deutschen Text Archivs verwiesen, http://www.deutschestextarchiv.de/ 
doku/workflow (letzter Zugriff: 22. 4. 2018). 
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Abb. 5.1: Arbeitsablauf bei der Vorverarbeitung. 


also mit das Corpus beschreibende Daten wie Autor, Titel, Erscheinungsjahr 
etc., die auch zur Datenkonversion gehört, wird hier nicht näher eingegangen. 
In Abschnitt 3.3 wird dann die linguistische Annotation beschrieben, die sich 
wiederum in verschiedene Annotationsebenen (Wortebene, syntaktische Ebene) 
und automatische und manuelle Methoden der Annotation gliedert. 


2.1.1 Vorverarbeitung 


Die Ausgangsdaten eines Corpus liegen nur selten in einem standardisierten 
Format vor, z.B. in einem TEI-konformen (Text Encoding Initiative?) XMLFor- 
mat oder einem einfachen Textdokument mit optionalem TEI-konformem XML- 


9 “The Text Encoding Initiative (TEI) Guidelines are an international and interdisciplinary 
standard that facilitates libraries, museums, publishers, and individual scholars represent a 
variety of literary and linguistic texts for online research, teaching, and preservation.” http:// 
www.tei-c.org/ (letzter Zugriff: 22.4. 2018): siehe u.a. die Kapitel 5 (TEI Header) und 23 (Lan- 
guage Corpora). 
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Abb. 5.2: Arbeitsablauf bei der linguistischen Annotation. 


Markup. Ein wichtiger Schritt bei der Vorverarbeitung ist die Datenkonversion, 
also die Uberfiihrung der spezifischen Ausgangsdaten in ein standardisiertes 
(generisches) Format. Standardisierte Daten sind fiir die Weiterverarbeitung 
und die Wiederverwendung entscheidend. 

Standardisierung bedeutet aber nicht, dass die Formate nicht auf spezifische 
Bedürfnisse angepasst werden können. Je nach intendiertem Verwendungs- 
zweck kann das Format daher variieren und spezifische Kriterien aufweisen. 

Ein Beispiel für ein solche Spezifikation auf der Basis eines TEI Formats ist 
das DTA-Basisformat,'® dessen Richtlinien auf der einen Seite eine umfassende 
Textaufbereitung erlauben und auf der anderen Seite die Flexibilität bei der 
Annotation so einschränken, dass die entstehenden Texte insgesamt kohärent 
sind. Es ist auf die Annotation gedruckter historischer Texte spezialisiert und 
dient als Basis sowohl für digitale Editionen als auch für Textcorpora. 


10 http://www.deutschestextarchiv.de/doku/basisformat (letzter Zugriff: 22. 4. 2018). 
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Ein weiteres Beispiel ist das TCF Format," ein XML Format fiir Textcorpora 
mit multidimensionaler linguistischer Annotation, das als Austauschformat fiir 
WebLicht” (cf. Kapitel 3.3), einer Plattform für die automatische Annotation 
von Textcorpora, entwickelt wurde. 

Das CONLL-Format (Buchholz & Marsi 2006) und das VRT-Format der IMS 
Corpus Workbench (CWB) sind Beispiele für textbasierte Standardformate 
(one-word-per-line). Annotationen sind entweder als TAB-getrennte Spalten 
kodiert oder beim VRT-Format auch zusätzlich als XML-Elemente. Durch ihren 
einerseits standardisierten und andererseits einfachen und flexiblen Aufbau 
sind sie sehr gut als Austauschformate geeignet. 

Ein weiterer Aspekt der Vorverarbeitung ist die Datenbereinigung, die sich 
um Fehlerkorrektur und das Entfernen nicht erwünschter Elemente (Rauschen) 
kümmert. Die Datenbereinigung hat sowohl generische als auch spezifische 
Aspekte. Zu den spezifischen Aspekten gehören Layoutprobleme wie Kopf- und 
Fußzeilen, Graphiken und Tabellen. Obwohl diese Probleme bei vielen Corpora 
auftreten, sind ihre Ausprägungen und damit auch die Erkennungsmuster sehr 
unterschiedlich. So muss hier auf spezifische Lösungen zurückgegriffen 
werden, etwa auf dedizierte Skripte oder auch manuelle Korrektur bei der 
Entfernung von nicht-textuellen Elementen wie Graphiken oder Tabellen. 

Fehler, die aufgrund einer automatischen Texterkennung (OCR-Fehler) 
entstanden sind, können sowohl generisch als auch spezifisch sein. Für typi- 
sche OCR-Fehler gibt es eine Reihe von generischen Komponenten zur Korrek- 
tur, wobei es sich im Wesentlichen um Ersetzungslisten handelt. Ein Beispiel 
ist die Ersetzungsliste von Underwood & Auvil (2012) mit 50.000 Ersetzungs- 
paaren für historische englische Texte aus den Jahren 1700-1899. Ein weiteres 
Beispiel ist das Projekt OCR-D, das auf deutsche historische Texte speziali- 
siert ist. Das Projekt hat eine ganzheitliche Lösung zum Ziel und setzt bereits 
bei der OCR-Erkennung selbst an. Für die OCR-Korrektur soll eine Datenbank 
mit Ersetzungsregeln und Ersetzungsmustern aufgebaut werden, die eine 
möglichst breite Abdeckung hat. Die generischen Komponenten können jedoch 
nur die typischen OCR-Fehler abdecken. Insbesondere bei sehr spezifischen 
Corpora (z.B. Spezialvokabular, spezielle Renderings) kann eine Ergänzung 
oder Anpassung der Regeln notwendig sein, um zufriedenstellende Ergebnis- 
se zu erzielen. Für die Evaluierung und eine etwaige Identifizierung von 


11 https://weblicht.sfs.uni-tuebingen.de/weblichtwiki/index.php/The_TCF_Format (letzter 
Zugriff: 22. 4. 2018). 

12 http://weblicht.sfs.uni-tuebingen.de/ (letzter Zugriff: 22.4. 2018). 

13 http://cwb.sourceforge.net (letzter Zugriff: 22.4. 2018). 

14 http://www.ocr-d.de/ (letzter Zugriff: 22.4. 2018). 
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spezifischen OCR-Fehlern können wiederum generische Komponenten aus 
dem Language Modeling, wie etwa Word Embeddings, eingesetzt werden (cf. 
Knappen et al. 2017). 

Das konvertierte und bereinigte Corpus kann dann als Basis für die Weiter- 
verarbeitung eingesetzt werden, also z.B. für die linguistische Annotation des 
Corpus. 


2.1.2 Linguistische Annotation 


Die linguistische Annotation fügt dem Corpus weitere Abstraktionsebenen hin- 
zu, die auf einer Interpretation der Wörter oder Wortsequenzen in ihrem Kon- 
text basieren. So können einerseits Abfragen effizienter gestaltet werden, weil 
sie präziser formuliert werden können und andererseits komplexe Phänomene 
automatisch extrahiert werden (cf. Lemnitzer & Zinsmeister 2010: 60-62). Die 
unterste Ebene der Annotation istin der Regel die Annotation auf der Wortebe- 
ne, auch morphosyntaktische Annotation genannt, und besteht aus Tokenisie- 
rung, Lemmatisierung und Wortartentagging (Schmid 2008, Voutilainen 2003; 
Leech & Wilson 1996). Auf ihr bauen die anderen Annotationsebenen auf, wie 
etwa die syntaktische Annotation in Form von (partiellen) Dependenz- oder 
Konstituentenstrukturannotationen (Manning & Schütze 1999: Chapter 12; 
Langer 2001; Kermes 2008), die semantische Annotation (z.B. Named Entity 
Recognition, semantische Rahmen, Lesarten) und die pragmatische Annota- 
tion (Anaphernund Koreferenzauflösung, Annotation von Informationsstruk- 
tur) (cf. Lemnitzer & Zinsmeister 2010: 84-86). 

Die Annotation von linguistischer Information ist in jedem Fall aufwendig. 
Der Einsatz von automatischen Werkzeugen ist daher sinnvoll. Für die ver- 
schiedenen Annotationsebenen gibt es eine ganze Reihe von generischen Kom- 
ponenten (cf. Lemnitzer & Zinsmeister 2010; McEnery, Xiao & Tono 2006; 
Kübler & Zinsmeister 2015). Forschungsinfrastrukturen wie CLARIN-D stellen 
eine Auswahl dieser Werkzeuge webbasiert zur Verfügung mit der Möglichkeit 
eigene Prozessketten zusammenzustellen (cf. WebLicht; Hinrichs, Hinrichs & 
Zastrow 2010, Düsendi 2014). Plattformen wie Gate’ (General architecture for 
text engineering, Cunningham, Maynard & Bontcheva 2011; Cunningham et al. 
2013) oder NLTK (Natural Language Tool Kit)! stellen ähnliche Funktionali- 
täten zur Verfügung. 


15 https://gate.ac.uk/ (letzter Zugriff: 22. 4. 2018). 
16 http://www.nltk.org/ (letzter Zugriff: 22. 4. 2018). 
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Beim Einsatz dieser generischen Komponenten ist zu beachten, dass die 
Annotationen, die automatische Werkzeuge liefern nicht perfekt sind (d.h. es 
treten Fehler auf), da die Werkzeuge für eine bestimmte Sprachvarietät opti- 
miert sind, zumeist für Allgemeinsprache (s. oben). Eine Evaluierung der An- 
notation kann die Qualität der Annotation bestimmen und Probleme aufzeigen. 
Die Qualität der Annotation bemisst sich nach dem Anteil der korrekten Anno- 
tation an der Anzahl aller Annotationen (der sogenannten Präzision). Ist die 
Qualität der Annotation zu schlecht, muss das generische Werkzeug eventuell 
angepasst oder neu trainiert werden. In der Regel bedeutet dies aber auch, 
dass eine webbasierte Prozesskette nicht mehr möglich ist, da hier nur die 
generischen Komponenten verwendet werden können. Die Lösung ist in die- 
sem Fall der Aufbau einer eigenen lokalen Prozesskette mit angepassten gene- 
rischen Komponenten. 

Bei kleineren Corpora besteht auch die Möglichkeit manuell zu annotieren 
oder die Annotation manuell zu korrigieren. Auch hier gibt es generische Werk- 
zeuge, die die manuelle Annotation unterstützen, wie etwa MMAX (Müller & 
Strube 2001), annotate (Brants & Plaehn 2000), SALTO für semantische Anno- 
tationen (Burchardt et al. 2006) oder EXMARaLDA” für Sprachcorpora. Einige 
davon, etwa das webbasierte Werkzeuge WebAnno,'® unterstützen eine 
Vielzahl von Annotationsebenen, darunter auch selbst definierte Ebenen. 
WebAnno hat zudem einen automatischen Modus, der lernt und Annotationen 
vorschlägt (cf. Eckart de Castilho et al. 2014; Yimam et al. 2013, 2014). Die 
Entscheidung wieviel im Einzelfall in spezifische Lösungen investiert wird, ist 
immer eine Abwägung zwischen Qualität und Effizienz. 


2.2 Corpusanalyse 


Die spezifischste Komponente einer corpuslinguistischen Studie ist natürlich 
die Analyse der extrahierten Daten (z.B. eine Merkmalsverteilung). Aber auch 
bei der Corpusanalyse lassen sich nicht nur spezifische sondern auch generi- 
sche Elemente identifizieren. Abbildung 5.3 zeigt eine schematische Darstel- 
lung des Arbeitsablaufes bei der Corpusanalyse. 

Prinzipiell kann man zwei Vorgehensweisen unterscheiden, corpus-based 
(corpusbasiert oder phänomengesteuert) und corpus-driven (corpusgesteuert 
oder explorativ) (cf. Tognini-Bonelli 2001: 30; McEnery, Xiao & Tono 2006: 8- 
10). Bei der corpusbasierten Vorgehensweise werden zunächst die für die Un- 


17 http://exmaralda.org/de/ (letzter Zugriff: 22.4. 2018). 
18 https://webanno.github.io/webanno/ (letzter Zugriff: 22.4. 2018). 
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Abb. 5.3: Arbeitsablauf bei der Corpusanalyse. 


tersuchung relevanten Merkmale identifiziert (Merkmalssselektion) (cf. Biber & 
Finegan 2014) und anschließend die entsprechenden Corpusinstanzen extra- 
hiert (Merkmalsextraktion). Der daraus resultierende Datensatz aus Feature- 
Wert-Paaren wird dann gesichtet (z.B. mit Hilfe von Visualisierungen) und 
evaluiert (z. B. mit Methoden der deskriptiven Statistik oder Data Mining) und 
schließlich interpretiert. 

Die corpusgesteuerten Vorgehensweise basiert auf einer explorativen Ana- 
lyse des Corpus z. B. mit dem Ziel typische Merkmale für eine durch das Corpus 
repräsentierte Sprachvarietät zu identifizieren. Generische Komponenten der 
Corpusexploration beinhalten oft die einzelnen Schritte von der Merkmals- 
selektion, über die Merkmalsextraktion bis zur Datensichtung und Daten- 
evaluierung. Die Corpusexploration kann aber auch als Unterstützung bei der 
Merkmalsselektion der corpusbasierten Methode dienen (cf. Biber & Finegan 
2014). Beide Methoden ergänzen einander (McEnery, Xiao & Tono 2006). 

Bei der Corpusexploration können generische Werkzeuge, z.B. aus dem 
Language Modeling (Word Embeddings, N-gram-Modelle) oder Corpusanalyse- 
tools wie das Voyant Tool’? eine andere Sichtweise auf das Corpus ermög- 


19 http://voyant-tools.org/ (letzter Zugriff: 22.4. 2018). 
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lichen. Sie abstrahieren von der Textgrundlage durch (i) Gruppierungen in 
Form von Häufigkeitsverteilungen von Wörtern und Phrasen, Messungen der 
lexikalischen Dichte und Varianz und (ii) Hervorhebung von typischen Ele- 
menten in Form von Termen, Keywords oder grammatikalischen Einheiten. 
Aber auch die manuelle Sichtung eines Corpus über Corpussuche und Konkor- 
danzen kann vor allem bei kleineren Corpora sinnvoll sein. Durch die Corpus- 
exploration können auch noch unbekannte relevante Merkmale identifiziert 
werden. Für die detaillierte Analyse der Merkmale muss dann eine Datensich- 
tung auf einer Mikroebene stattfinden, etwa durch Extraktion und/oder Daten- 
sichtung und Datenevaluierung auch auf der Textebene (Konkordanzen). 

Bei der corpusbasierten Methode geht man von einem zu untersuchenden 
linguistischen Phänomen aus. Die Merkmalsselektion erfolgt manuell auf der 
Basis von vorhandenen linguistischen Studien (Merkmalskatalog als gene- 
rische Ressource) aber auch über die Corpusexploration. Für die Merkmals- 
extraktion werden in der Regel generische Corpusabfragewerkzeuge verwen- 
det, die Abfragen selbst sind natürlich spezifisch, aber es kann sich lohnen 
wiederkehrende Abfragen in einer Art Abfragebibliothek zu speichern. Inzwi- 
schen sind viele Corpora online verfügbar und abfragbar. Dabei unterscheiden 
sich die einzelnen Plattformen für die Corpusabfrage hinsichtlich ihrer Funk- 
tionalität. Exemplarisch seien hier für die deutsche Sprache COSMAS (Corpus 
Search, Management and Analysis System?°) als Abfragewerkzeug für die 
Corpussammlung des Instituts für Deutsche Sprache, sowie das DWDS (Das 
Wortauskunftssystem zur deutschen Sprache in Geschichte und Gegenwart?!) 
und das Deutsche Text Archiv genannt. Für englischsprachige Corpora seien 
die BYU Corpora”? sowie das BNCweb” und die Corpora auf der CQPweb Platt- 
form der Lancaster University” genannt. Schließlich sei noch das OPUS Projekt 
(open parallel corpus?°) erwähnt, das eine große Sammlung von parallelen 
Übersetzungstexten als alignierte Corpora bereitstellt. 

Die meisten der bereitgestellten Corpora sind lemmatisiert und wortarten- 
getaggt. Corpusabfragen können auf diesen Annotationen aufsetzen und 
erlauben den Einsatz von regulären Ausdrücken bei der Abfrage. Je nach Un- 
tersuchungsgegenstand bieten diese online Plattformen unterschiedliche 


20 http://www.ids-mannheim.de/cosmas2/ (letzter Zugriff: 22. 4. 2018). 
21 https://www.dwds.de/ (letzter Zugriff: 22.4. 2018). 

22 http://www.deutschestextarchiv.de/ (letzter Zugriff: 22. 4. 2018). 

23 http://corpus.byu.edu/ (letzter Zugriff: 22.4. 2018). 

24 http://corpora.lancs.ac.uk/BNCweb/ (letzter Zugriff: 22.4. 2018). 

25 https://cqpweb.lancs.ac.uk/ (letzter Zugriff: 22.4. 2018). 

26 http://opus.lingfil.uu.se/ (letzter Zugriff: 22. 4. 2018). 
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generische Lösungen für die Corpusanalyse. Als Ergebnis wird immer zumin- 
dest eine Konkordanz ausgegeben und die Anzahl der Treffer. Bei OPUS kön- 
nen zusätzlich noch alignierte Textstellen mit ausgegeben werden. 

Einige der Plattformen bieten darüber hinaus weitere Auswertungs- 
möglichkeiten. Das DWDS bietet für Einzelwörter Zugriff auf lexikalische Infor- 
mationen wie Bedeutung, Etymologie, Thesaurus, typische Verbindungen 
sowie eine Verlaufskurve der Häufigkeit des Wortes über die Zeit. Das Deutsche 
Text Archiv bietet u.a. die Möglichkeit Corpora mit dem Voyant Tool” zu ana- 
lysieren (häufigste Terme und Phrasen, Häufigkeitenverteilung von Termen im 
Dokument, Volltextanzeige). Die Plattform der BYU Corpora bietet einige vor- 
prozessierte Auswertungen für Einzelwörter (Kollokationen, Synonyme, Defini- 
tionen sowie Frequenzdistributionen). 

Corpusplattformen, die auf der Abfragesprache CQP (Evert & Hardie 2011) 
und dem dafiir von Andrew Hardie entwickelten webbasierten GUI CQPweb 
(Hardie 2012) basieren, vereinen eine effiziente und mächtige Abfragesprache 
mit verschiedenen Auswertungsmöglichkeiten (Häufigkeitsverteilungen, Kollo- 
kationsanalyse, Keywordanalyse). Die meisten Auswertungen sind nicht vor- 
prozessiert, lediglich Frequenzlisten werden bereits bei der Corpusinstallation 
berechnet. Bei der Datenextraktion und Datenauswertung kann auf die gesamte 
Annotation des Corpus zugegriffen werden. Für die Extraktion von komplexen 
Datensätzen sind modulare Plattformen wie CQPweb besonders geeignet, da 
sie erlauben die Merkmale für die Extraktion sehr spezifisch zu definieren. 

Ähnlich wie bei der Corpusexploration können generische Komponenten 
bei der Datensichtung und Datenevaluierung helfen, von den zugrundeliegen- 
den Daten zu abstrahieren und so eine andere Sichtweise auf die extrahierten 
Daten ermöglichen, wodurch die Makrostruktur der Ergebnisse erst sichtbar 
wird. Generische Werkzeuge für die statistische Auswertung und Visualisie- 
rung wie R? aber auch Werkzeuge aus dem Data Mining (z.B. WeKa”? oder 
Rapid Miner”? für die Textklassifikation) bieten hier verschiedene Auswertungs- 
möglichkeiten, die je nach Untersuchungsgegenstand spezifisch angewandt 
werden können. 

Durch den Einsatz von generischen Komponenten bei der Corpusanalyse 
kann diese effizient und schnell durchgeführt werden. Zudem gewährleistet 
der Einsatz von statistischen Verfahren und Methoden aus dem Data Mining 
ein hohes Maß an Objektivität. Es ist jedoch auch hier zu beachten, dass 


27 http://voyant-tools.org/ (letzter Zugriff: 22.4. 2018). 

28 https://www.r-project.org/ (letzter Zugriff: 22.4. 2018). 

29 http://www.cs.waikato.ac.nz/~ml/weka/ (letzter Zugriff: 22.4. 2018). 
30 https://rapidminer.com/ (letzter Zugriff: 22.4. 2018). 
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(i) automatische Werkzeuge keine perfekten Ergebnisse liefern, (ii) es nicht 
immer einfach ist, die Generalisierungen und Abstraktionen richtig zu interpre- 
tieren und (iii) die Werkzeuge per se keine spezifischen Analysen bieten. Dies 
bedeutet fiir spezifische Untersuchungen, dass bei der Interpretation der Blick 
auf die Mikroebene, also die Textgrundlage in Form von Textausschnitten, 
Konkordanzen oder Beispieldaten, nicht ausbleiben kann. 


3 Zusammenspiel zwischen generischer 
Infrastruktur und spezifischer Forschung 


In diesem Kapitel zeigen wir das Zusammenspiel zwischen generischer Infra- 
struktur und spezifischen Lösungen anhand eines konkreten Beispiels. Wir ge- 
hen zunächst kurz auf den linguistischen Hintergrund der Studie ein, beschrei- 
ben dann die Vorgehensweise bei der Corpuserstellung (Vorverarbeitung und 
linguistische Annotation) und gehen dann auf die Corpusanalyse (Merkmals- 
extraktion, Datensichtung und Datenevaluierung) ein. 

Unser Interesse gilt der Entwicklung der englischen Wissenschaftssprache. 
Laut Halliday (1988) und Halliday & Martin (2005) kommt es hier aufgrund von 
Spezialisierung zu einer größeren Kodierungsdichte, d.h. kürzere, kompaktere 
sprachliche Ausdrücke werden häufiger benutzt, um dem Prinzip der Sprach- 
effizienz zu entsprechen. Dabei zeigen sich Merkmale sprachlicher Verdichtung 
auf allen linguistischen Ebenen, z.B. Reduktion auf der syntaktischen Ebene 
(Artikelauslassung), Nominalisierungen auf der morphologischen Ebene und 
eine größere lexikalische Dichte auf der Wortebene (ausgeprägtere Verwen- 
dung von Inhaltswörtern). 

Wir gehen nun davon aus, dass sich diese Art der Verdichtung am sprach- 
lichen Signal als Informationsdichte messen lässt, also als Anzahl von Bits, die 
für die Kodierung einer gegebenen Äußerung notwendig ist (Shannon Informa- 
tion). Üblicherweise wird die Informationsdichte formal repräsentiert als die 
logarithmische Wahrscheinlichkeit einer sprachlichen Einheit gegeben einen 
Kontext (Crocker, Demberg & Teich 2015). Vereinfacht gesagt, je besser ein ge- 
gebener Kontext die sprachliche Einheit vorhersagen kann, desto kürzer ist die 
sprachliche Einheit (vgl. z.B. Variation in der Wortlänge, Mahowald et al. 2013) 
und desto weniger Bits werden für die Kodierung benötigt. 

Für die Untersuchung brauchen wir einen Corpus des wissenschaftlichen 
Englisch, das eine gewisse zeitliche Ausdehnung hat, die Anfänge des wissen- 
schaftlichen Schreibens in Englisch einschließt und eine möglichst breite Ab- 
deckung im Bezug auf Disziplinen bietet. Vorhandene diachrone Corpora sind 
entweder auf eine Disziplin beschränkt oder decken nur eine bestimmte Zeit- 
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periode ab (z.B. das Corpus of Early Modern English Medical Texts, 
Taavitsainen & Pahta 2012) bzw. sind recht klein (z.B. das Corufia Corpus, 
Moskowich & Crespo 2007). Daher ist es hier nicht möglich auf eine vorhan- 
dene Ressource zuriickzugreifen. Es musste ein Corpus neu erstellt werden. 
Betrachtet man die Rolle der Royal Society of London bei der Entwicklung der 
Wissenschaft ab Mitte des 17. Jahrhunderts (Atkinson 1998), so sind die Philo- 
sophical Transactions eine geeignete Datengrundlage. Die Philosophical Trans- 
actions wurden 1665 von Henry Oldenburg gegriindet und sind die erste regel- 
mäßig erscheinende Zeitschrift, die wissenschaftliche Artikel in englischer 
Sprache veröffentlichte. Sie enthielt ursprünglich sowohl wissenschaftliche 
Korrespondenz, Rezensionen und Zusammenfassungen von Büchern als auch 
wissenschaftliche Berichte von Beobachtungen und Experimenten. Als solches 
repräsentiert sie die Anfänge wissenschaftlichen Schreibens in englischer 
Sprache bis hin zu der Etablierung eines ersten wissenschaftlichen Standards. 


3.1 Corpuserstellung 


Ein weiterer Vorteil der Philosophical Transactions ist, dass sie bereits digita- 
lisiert sind und von JSTOR zusammen mit Metadaten wie Autor, Texttyp und 
Jahr der Publikation etc. in wohlgeformtem XML bereitgestellt werden. Das 
Royal Society Corpus (RSC) umfasst alle Veröffentlichungen der Philosophical 
Transactions (Artikel, Buchrezensionen und Abstracts, sowie verschiedene Pro- 
duktionsmodi, schriftsprachliche und gesprochensprachliche Texte) aus den 
ersten 200 Jahren der Zeitschrift von 1665-1869. In der aktuellen Version (2.0) 
hat das RSC ca. 35 Millionen Token. Bei den Digitalisaten handelt es sich um 
gescannte Texte aus unterschiedlichen Quellen (Tab. 5.1 zeigt einen Überblick 
über die Anzal der Texte pro Textkategorie und Zeitperiode), die noch weit- 
gehend unerforscht bzw. unbekannt sind. 


Tab. 5.1: Quellen des RSC. 


Buchrezen. Artikel Misc.  Insg. 
Philosophical Transactions 1665-1678 124 641 154 919 
Philosophical Transactions 1683-1775 154 3.903 338 4.395 
Philosophical Transactions of 1776-1869 - 2.531 283 2.814 
the Royal Society of London 
Abstracts of Papers Printed 1800-1842 = 1.316 15 1.331 
Abstracts of Papers Communicated 1843-1861 = 429 5 434 
Proceedings of RSL 1862-1869 - 1.476 38 1.528 


Insgesamt 278 10.296 833 11.421 
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Abb. 5.4: Arbeitschritte beim Agile Corpus Building (vgl. Kermes et al. 2016a). 
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Wir haben uns daher fiir eine inkrementelle Vorgehensweise bei der Corpus- 
erstellung entschieden, die sich an der Idee des Agile Software Development 
(Cockburn 2001) orientiert. Der gesamte Prozess der Corpuserstellung von den 
Ausgangsdaten bis zum abfragbaren Corpus ist weitgehend automatisiert und 
verwendet, wo immer möglich, generische Komponenten (etwa bei der linguis- 
tischen Annotation). Dedizierte automatische Komponenten ergänzen die gene- 
rischen Werkzeuge, wenn eine generische Komponente nicht verfiigbar ist. 
Manuelle Arbeitsschritte werden nur vorgenommen, wenn eine Automatisierung 
nicht möglich oder nicht sinnvoll ist und setzen direkt auf den Ausgangsdaten 
auf. Die Automatisierung hat den Vorteil, dass auf Probleme in der Datenqualität 
relativ schnell und effizient reagiert werden kann. Die entsprechenden Kompo- 
nenten können angepasst oder ergänzt werden und es kann eine neue verbesser- 
te Version des Corpus erstellt werden (cf. Kermes et al. 2016a, b). Abbildung 5.4 
zeigt eine schematische Darstellung des Arbeitsablaufs. 
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3.2 Vorverarbeitung 


Die Ausgangsdaten des RSC liegen zwar digitalisiert und in einem strukturierten 
XML-Format vor, eine Vorverarbeitung ist dennoch notwendig, um die Daten 
in ein standardisiertes Format zu überführen und zu bereinigen. 

Bei der OCR-Fehlerkorrektur greifen wir auf die in Unterkapitel 2 Methodik, 
Arbeitsabläufe und Angebote beschriebene Ersetzungsliste von Underwood & 
Auvil (2012) zurück. Da das RSC jedoch recht spezifisch ist, zeigt sich, dass die 
Listen nicht einfach übernommen werden können, sondern an die speziellen 
Bedürfnisse angepasst werden müssen. Muster die für das RSC nicht relevant 
sind werden gelöscht, andere angepasst (so wird etwa ‚fhe‘ zu ‚the‘ anstatt zu 
‚she‘) und wieder andere Muster werden ergänzt. Für die Identifizierung der 
spezifischen Muster werden u.a. word embeddings verwendet, in der An- 
nahme, dass falsch geschriebene Wörter ähnlich verwendet werden, wie das 
richtig geschriebene Wort. Bisher haben wir so ca. 360 spezifische Ersetzungs- 
muster ergänzt (cf. Knappen et al. 2017). 

Bei der Lösung der Layoutprobleme muss ebenfalls auf spezifische Lösun- 
gen zurückgegriffen werden. Dedizierte Skripte kümmern sich etwa um Kopf- 
und Fußzeilen im Fließtext, in der Reihenfolge vertauschte oder fehlende 
Seiten, uneinheitliche Seitennummern, Seitenduplikate (erste und letzte Seite) 
und nicht eindeutig markierte Artikelgrenzen. Ist eine automatische Lösung 
nicht möglich, wird manuell oder (semi-)automatisch gesichtet. Bei einigen 
Quellen wurden Artikelgrenzen manuell annotiert. Texte und Seiten mit 
großen Tabellen wurden automatisch identifiziert und anschließend manuell 
gesichtet. 


3.3 Linguistische Annotation 


Wie oben bereits diskutiert, sind die meisten linguistischen Werkzeuge für 
gegenwartssprachliche, allgemeinsprachliche Corpora optimiert. Das RSC ist 
jedoch ein historisches Corpus aus wissenschaftlichen Texten. Es weicht also 
sowohl zeitlich als auch bezüglich des Registers ab. Trotzdem greifen wir bei 
der linguistischen Annotation auf generische Werkzeuge zurück, evaluieren 
die Ergebnisse und passen die Werkzeuge dann gegebenenfalls an. 

Für die Normalisierung (hier Modernisierung) der historischen Original- 
wörter verwenden wir VARD (Baron & Rayson 2008), ein regelbasiertes statis- 
tisches Werkzeug, das orthographische Varianten bzw. historische Wortformen 
auf gegenwartssprachliche Wörter abbildet. VARD wurde für die Zeitperiode 
zwischen 1450-1700 entwickelt und überschneidet sich somit mit der Zeitperiode 
des RSC (1665-1869). Die Evaluierung von VARD zeigt eine Präzision von 61,8% 


106 —— Hannah Kermes und Elke Teich 


und einen Recall von 31,4%. Ein speziell trainiertes Modell verbessert die Pra- 
zision um mehr als 10 % auf 72,8%. Der Recall verdoppelt sich auf fast 57,7 %. 

Fiir Tokenisierung, Lemmatisierung und Wortartenannotation wird der 
TreeTagger (Schmid 1994; 1995) verwendet. Der TreeTagger ist ein Wortarten- 
tagger der auf gegenwartssprachlichem Zeitungstext trainiert wurde. Eine Eva- 
luierung zeigt, dass der TreeTagger mit einer Präzision von 94 % (im Gegensatz 
zu 97% auf gegenwartssprachlichen Texten) auch auf dem historischen 
Sprachmaterial zumindest akzeptable Ergebnisse erzielt. Eine detaillierte Ana- 
lyse der Taggingfehler zeigt zwei Hauptfehlerquellen: NN-NP (Verwechslung 
von Nomen und Eigennamen) und WP-WDT (Verwechslung von Wh-Relativ- 
pronomen mit WhArtikeln). Beide Fehlerquellen sind für viele Analysen un- 
problematisch. Ignoriert man NN-NP Fehler, so erhöht sich die Präzision auf 
95%. Wir verwenden den TreeTagger daher im Augenblick fast unverändert. 
Lediglich das Lexikon des Tokenisierers wurde um ca. 170 Abkürzungen er- 
ganzt. Dazu wurden zunächst Abkürzungskandidaten aus dem RSC extrahiert 
und die Häufigsten anschließend manuell gesichtet. 

Für unsere Untersuchungen benötigen wir neben den klassischen linguisti- 
schen Annotation noch andere Informationen. So annotieren wir zusätzlich 
Surprisal, also den Informationsgehalt der Wörter in Anzahl Bits, berechnet als 


S(unit) = -log p(unit|context) 


d.h., der (negativen logarithmischen) Wahrscheinlichkeit einer gegebenen Ein- 
heit (z.B. eines Wortes) in einem Kontext (z.B. den vorangehenden Wörtern) 
(vgl. Genzel & Charniak 2002). Surprisal (der Informationsgehalt, Levy 2008) 
drückt die Intuition aus, dass je unwahrscheinlicher eine sprachliche Einheit 
in einem bestimmten Kontext ist, desto „überraschender“ (more surprising) 
oder informativer ist diese Einheit und desto mehr Bits werden benötigt, um 
sie zu kodieren (und umgekehrt). Surprisal erlaubt es, sprachliche Einheiten 
auf ihren Informationsgehalt hin zu untersuchen, den Kontext der Einheit bei 
der Untersuchung zu berücksichtigen und so über eine rein frequenzbasierte 
Untersuchung hinauszugehen. Für die Annotation von Surprisal gibt es bisher 
kein generisches Werkzeug, hier musste daher eine spezifische Lösung gefun- 
den werden. Das dedizierte Skript annotiert Surprisal basierend auf verschiede- 
nen Zeitperioden und erlaubt so den schnellen Zugriff auf diese Information. 
Obwohl hier als spezifische Lösung entwickelt, ist das Skript insofern auch 
generisch, als es auch auf andere Daten angewendet werden kann. 
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3.4 Beispielanalyse 


Für die Beispielanalyse betrachten wir den Unterschied zwischen Funktions- 
wörtern und Inhaltswörtern sowie deren Wortarten aus informationstheore- 
tischer Sicht (Shannon 1949). Als Maß für den Informationsgehalt einer sprach- 
lichen Einheit verwenden wir Surprisal und Average Surprisal (AvS), den 
durchschnittlichen Informationsgehalt. Dabei gehen wir von der Annahme 
aus, dass Funktionswörter generell besser vorhersagbar sind, ein niedrigeres 
AvS haben, während Inhaltswörter generell weniger vorhersagbar sind, ein 
höheres AvS haben. Außerdem nehmen wir an, dass das AvS von Funktions- 
wörtern über die Zeit im Wesentlichen gleich bleibt, während das AvS von 
Inhaltswörtern weniger konstant ist. 

Unsere Annahmen stützen sich auf bereits bekannte Unterschiede zwi- 
schen Funktionswörtern und Inhaltswörtern bezüglich Vorkommenshäufig- 
keit, Wortlänge, Anzahl (offene vs. geschlossene Wortklasse) und Informa- 
tionsgehalt (cf. Biber et al. 1999). So zeigen Piantadosi, Tily & Gibson (2011), 
dass der durchschnittliche Informationsgehalt die Länge eines Wortes besser 
vorhersagt als dessen Häufigkeit. Laut Quirk et al. (1985: 72) ist die Anzahl 
der möglichen Wörter in typischen Kontexten von Inhaltswörtern größer als in 
typischen Kontexten von Funktionswörtern. Gleichzeitig zeigen Linzen & 
Jaeger (2015), dass die Anzahl an Ausdrucksmöglichkeiten die Vorhersag- 
barkeit der folgenden syntaktischen Konstruktion beeinflusst. 

Beispielhaft schauen wir uns die Entwicklung im wissenschaftlichen Eng- 
lisch an. Basierend auf der Annahme, dass es hier aufgrund der sprachlichen 
Verdichtung (cf. Halliday 1988; Halliday & Martin 2005) zu einer verstärkten 
Verwendung von Inhaltswörtern kommt, die oft durch lexikalische Dichte 
approximiert wird, nehmen wir an, dass wir diachrone Unterschiede beim AvS 
von Inhaltswörtern in wissenschaftlichen Texten beobachten können und dass 
diese Entwicklung sich von der Entwicklung in der Allgemeinsprache unter- 
scheidet. 

Für die Untersuchung verwenden wir das RSC und als Vergleichscorpus 
das Corpus of Late Modern English Texts (CLMET, Diller, De Smet & Tyrkkö 
2011). Beide Corpora sind sowohl mit CQP*! als auch mit dessen webbasiertes 
GUI CQPweb - also mit generischen Werkzeugen - abfragbar. CQPweb nutzen 
wir zur Corpusexploration und zum Aufbau und der Evaluierung der Abfrage. 
Dabei nützen wir den schnellen und flexiblen Zugriff auf Konkordanzen, Häu- 
figkeitsverteilungen sowie Sortierungen und Gruppierungen der Ergebnisse, 
um die Adäquatheit unserer Abfragen zu überprüfen. 


31 http://www.cwb.sourceforge.net (letzter Zugriff: 22. 4. 2018). 
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tabcmd: match word, match pos, match surpr50, match text_period 
tabcmd_header: word, pos, surpr, time 
ex: pos_avs:: [word = "\wt" & word !=".*[Q@-9_]+.*" & 
pos !="SYM|FW|UH|LS|CD|V[BH].*|N.*"] | 
[pos="N.*" & word =".{3,}" & 
word != ".*[Q@-9].*" & word = "\wt"] 
ex: pos_avs_vbhaux:: [pos="V[BH].*" ][pos!="VV.*«" ]{4} 
ex: pos_avs_vbh:: [pos="V[BH].*"]L]{@,3}Lpos="VV.*"] 


Abb. 5.5: Parameterdatei fiir die Merkmalsextraktion. 


Für die Merkmalsextraktion nutzen wir dann das zugrundeliegende generische 
Abfragewerkzeug COP. Es erlaubt einen Zugriff auf das Corpus durch externe 
Skripte. Durch die Automatisierung wird die Merkmalsextraktion reproduzier- 
bar und auf andere Daten übertragbar. Die spezifischen Komponenten (Corpus- 
abfrage und Merkmale) werden in Parameterdateien gespeichert, wobei eine 
Parameterdatei mehrere Abfragen enthalten kann. Mit einem dedizierten Extrak- 
tionsskript können dann für diese Parameter die entsprechenden Merkmale 
aus beliebigen CQP-Corpora extrahiert werden. 

In unserem konkreten Fall wollen wir alle englischen Wörter aus dem RSC 
und dem CLMET extrahieren. Die Abfrage ist so formuliert, dass keine Fremd- 
wörter, Symbole oder Zahlen extrahiert werden. Außerdem schließen wir No- 
men aus, die aus weniger als drei Buchstaben bestehen. Die Merkmale, die 
wir für die Corpusinstanzen extrahieren sind das Wort selbst, die Wortart, der 
Surprisalwert und die Zeitperiode (50-Jahre-Zeitperioden). Die Verben be und 
have werden separat extrahiert, um zwischen Auxiliar und Vollverb zu unter- 
scheiden. Abbildung 5.5 zeigt die Parameterdatei für die Extraktion. 

Mit tabcmd und tabcmd_header werden die Corpusattribute und die Spal- 
tennamen für die Merkmalsextraktion definiert. Die einzelnen Abfragen wer- 
den mit ex und einem Namen gekennzeichnet. Das Ergebnis der Extraktion ist 
eine TAB-getrennte Feature-Wert-Tabelle, mit einer Spalte für jedes Merkmal 
und einer Zeile für jede Corpusinstanz, die automatisch in einer Datei mit dem 
Namen der Abfrage gespeichert wird (s. a. Tab. 5.2). 

Für eine bessere Abstraktion fügen wir der Tabelle zwei weitere Merkmale 
hinzu, indem wir die Wortartentags des verwendeten Tagsets (Penn Treebank 
Tagset, Marcus, Santorini & Marcinkiewicz 1993) in übergeordnete Wortarten 
sowie Funktionswörter (Artikel, Präpositionen, Pronomen, Modalverben, Kon- 
junktionen und Auxiliarverben) und Inhaltswörter (Nomen, Adjektive, Verben, 
Adverben) gruppieren (s.a. Tab. 5.3). 

Für die statistische Auswertung und Visualisierung verwenden wir R. 
R bietet einerseits den Zugriff auf bereits implementierte Auswertungen und 
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Tab. 5.2: Feature-Wert-Tabelle als Ergebnis der Extraktion. 


word pos avs time 
An DT 6.51 1650 
Account NP 1.12 1650 
of IN 0.06 1650 
some DT 2.66 1650 
Books NPS 0.90 1650 


Tab. 5.3: Feature-Wert-Tabelle mit Abstraktion der Wortarten. 


word pos apos type avs time 
An DT article fw 6.51 1650 
Account NP noun cw 1.12 1650 
of IN preposition fw 0.06 1650 
some DT article fw 2.66 1650 
Books NPS noun cw 0.90 1650 


andererseits die Möglichkeit eigene Funktionen für die spezifische Datenanaly- 
se zu schreiben. Wir verwenden auch hier dedizierte Skripte. Dabei greifen wir 
einerseits auf bereits implementierte Auswertungen (z.B. den Mittelwert) und 
Visualisierungen (hier: Graphik zur Dichteverteilung) zurück und definieren 
andererseits spezifische Aspekte der Datenanalyse im Skript. Durch die Auto- 
matisierung mit dedizierten R-Skripten schaffen wir auch hier eine Reprodu- 
zierbarkeit der Ergebnisse. Durch Parameter (Datendatei, Corpus, Merkmale) 
in den R-Skripten sind die Analysen auch auf andere Daten übertragbar, z.B. 
auf Daten, die aus anderen Corpora extrahiert wurden oder auf anderen 
Extraktionen beruhen. Das Ergebnis ist dann z.B. die Graphik einer Dichte- 
verteilung wie in Abbildung 5.6. 

Die Abbildung zeigt die diachrone Entwicklung des AvS von Wortarten im 
RSC als Dichteverteilung. Wir sehen u.a., dass sich das AvS von einigen Wort- 
arten im RSC über die Zeit tatsächlich verändert. So steigt das AvS von typischen 
modifizierenden Wortarten wie Adjektive, Adverbien, Modalverben sowie von 
Pronomen über die Zeit leicht an. Für Artikel, Präpositionen und Nomen sowie 
für Verben und Auxiliare sinkt das AvS. 

Für einen Vergleich mit dem CLMET müssen wir nun dieselbe Merkmals- 
extraktion und Datenanalyse auf dem CLMET durchführen. Durch den Einsatz 
von generischen Komponenten und die Automatisierung und Modularisierung 
der spezifischen Skripte, ist eine Übertragbarkeit des Prozesses auf das CLMET 
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Abb. 5.6: Diachrone Entwicklung der AvS von Wortarten im RSC. 


schnell und effizient möglich. Lediglich der Parameter des Corpus muss geän- 
dert werden (vgl. Kermes & Teich 2017) für eine ausführlichere Analyse des AvS 
von Wortarten im RSC). 


4 Zusammenfassung und Schluss 


Wir haben gezeigt welche Vorteile der Einsatz von generischen Infrastruktur- 
komponenten für spezifische Forschung haben kann: (i) Untersuchungen kön- 
nen auf größeren Datenmengen und effizienter durchgeführt werden und 
(ii) Ergebnisse können reproduziert und übertragbar gemacht werden. Dabei 
haben wir auch an einer konkreten Studie gezeigt, dass generische Infra- 
struktur auch spezifisch angepasst oder durch spezifische Lösungen ergänzt 
werden kann. Es zeigt sich, dass manche zunächst spezifischen Lösungen durch- 
aus wiederverwendbar sind und so auch zu generischen Komponenten werden 
können bzw. diese ergänzen (z.B. erweiterte oder modifizierte Wortlisten für 
OCR-Korrektur, R-Skripte für komplexe Merkmalsextraktion). 

Empirische Forschung an natürlichsprachlichen Daten kommt ohne den 
Einsatz von automatischen Verfahren, die über generische Werkzeuge (z.B. 
Tagger, Parser) zur Verfügung gestellt werden, nicht aus. Generische Werkzeuge 
unterstützen den Forschungsprozess und eröffnen neue Möglichkeiten, sie 
schließen aber spezifische Vorgehensweisen nicht aus und können auch manu- 
elle Analyse und Interpretation nicht ersetzen. Dabei ist wichtig, dass man ver- 
steht, was die generischen Werkzeuge zu leisten im Stande sind und wo ihre 
Grenzen sind. Denn nur so ist gewährleistet, dass sie richtig eingesetzt werden 
und die Ergebnisse kritisch betrachtet und analysiert werden bzw. aus den Er- 
gebnissen valide Schlussfolgerungen gezogen werden können. 
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1 Einleitung 


Dieser Artikel soll anhand von Beispiel-Szenarien zur Arbeit mit Mehrebenen- 
Annotation - insbesondere auf größeren mündlichen Korpora - verdeutlichen, 
wie sprachtechnologische Komponenten in den sprachwissenschaftlichen 
Forschungsprozess eingebunden werden können. Beispielsweise lassen sich 
prosodische Analysekomponenten, die auf akustischen Parametern des Sprach- 
signals basieren und durch automatische Annotation wesentlich größere 
Korpora erschließen können, mit Werkzeugen zur lexikalischen und syntak- 
tischen Annotation zusammenführen. Durch Abgleich von Annotationsergeb- 
nissen, die auf unabhängigen Wegen ermittelt wurden, kann das Risiko von 
Annotationsfehlern reduziert werden. Eine in dieser Weise gewonnene ebenen- 
überspannende „Silberstandard“-Annotation macht beispielsweise explorative 
Studien zu prosodischen Realisierungsalternativen einer Gruppe von gramma- 
tischen Konstruktionen sehr leicht und erlaubt es, Korpusdaten in einer Größen- 
ordnung zu erschließen, die mit herkömmlichen Ansätzen nur unter extrem 
großem Aufwand angegangen werden könnten. 

Der Infrastruktur, in der die Komponenten eingebettet sind, kommt in 
diesem Zusammenhang nicht allein die Funktion des technischen Rahmen- 
werks zu, sondern sie spielt eine eigene methodologische Rolle — unter anderem 
im linguistisch fundierten Prozess der Kombination von Teilergebnissen, in der 
Konfidenz-Abschätzung von approximativen Analysen, wie sie beim Einsatz 
von sprachtechnologischen Annotationskomponenten entstehen, sowie in der 
Qualitätsverbesserung von Annotationen durch wechselseitigen Abstimmung 
und Ausnutzung der jeweiligen Stärken von manuellen vs. automatisierten 
Annotationsschritten. 


Hintergrund 

Viele Zweige der sprachwissenschaftlichen Forschung legten von jeher großes 
Gewicht auf einen Zugang zu authentischen Sprachdaten - sei es um Varianz 
in der Lexik oder im grammatischen System empirisch zu beleuchten, sei es 
um Belege für diachrone Entwicklungen festzuhalten oder um mittels einer 
Konkordanz den Gebrauch bestimmter lexikalischer Ausdrücke unter die Lupe 
zu nehmen. Der Schritt hin zu elektronischen Korpora revolutionierte die 
Zugriffsmöglichkeiten auf die verfügbaren Sprachdaten, und seither ist die 
Korpuslinguistik eng eingebunden in die Entwicklung von geeigneten digitalen 
Ressourcen und Computerwerkzeugen, von Arbeitspraktiken, Workflows und 
validen Methoden für den Zugang zur sprachlichen Empirie in Form von 
Korpusevidenz. Einige wichtige Entwicklungen der Computerlinguistik und 
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Sprachtechnologie, wie der Einsatz und das Training von probabilistischen 
Analysemodellen (wie z.B. den Hidden-Markov-Modellen für das Part-of- 
Speech-Tagging, also der Auszeichnung von Wortarten), wurden durch den 
Bedarf und die Möglichkeiten der korpusbasierten Sprachforschung ausgelöst 
und befeuert. Am offensichtlichsten ist die gegenseitige Befruchtung bei der Au- 
tomatisierung der Korpusannotation auf bestimmten Ebenen der linguistischen 
Beschreibung (Part-of-Speech-Tagging, Wortbedeutungs-Desambiguierung, 
syntaktische Analyse, Koreferenzanalyse) - andererseits liegen hier am ehesten 
auch die Angriffspunkte für eine kritische Haltung: Der unreflektierte Einsatz 
von automatischen Annotationswerkzeugen kann zu Ergebnissen führen, deren 
Validität nicht abgesichert ist. Richtig eingesetzt können sprachtechnologische 
Modelle jedoch sehr effektiv zur korpuslinguistischen Forschung beitragen 
(beispielsweise durch die Trennung von explorativen Schritten mit großem 
Skopus vs. streng operationalisierten Hypothesentests, für welche manuelle 
Absicherungsschritte hinzugefügt werden). Mit der laufenden Erschließung 
von weiteren linguistischen Ebenen für eine computergestützte Korpusannota- 
tion — beispielsweise an der Prosodie/GrammatikSchnittstelle - ist der Prozess 
der gegenseitigen Befruchtung weiterhin im Gange. 

Vor dem Hintergrund der dargestellten Verwebung erscheint die Aussage, 
eine geeignete Infrastruktur für sprachtechnologische Werkzeuge (und für die 
Korpusressourcen selbst) sei von großer Bedeutung für die sprachwissen- 
schaftliche Forschung, wenig überraschend. Wenn Filter- und Suchmethoden 
sowie diverse Modelle für eine automatische Analyse von Belang sind für eine 
korpuslinguistisch geprägte Sprachforschung, dann stellt sich — mittelbar — 
selbstverständlich auch die Frage nach den technologischen Rahmenbedin- 
gungen für die Vorhaltung, Ausführbarkeit und Ergebnisanalyse der Werkzeuge. 

Der vorliegende Beitrag will darüber hinaus jedoch anhand einiger Szena- 
rien deutlich machen, dass die Ausprägung der Infrastruktur - also verfügbare 
Ressourcen, Analyse- und Auswertungsmethoden etc. und ihre Kombinations- 
möglichkeiten — bei der Erschließung von Korpusdaten für die sprachwissen- 
schaftliche Forschung von zentralerer Bedeutung ist, als der Verweis auf einen 
generellen technischen Infrastrukturbedarf suggeriert: für Untersuchungen, 
die über gut erschlossene, homogene Subkorpora und etablierte Analyse- 
kategorien hinausgehen oder mehrere Ebenen der linguistischen Beschreibung 
berühren, kommt der Infrastruktur, in der die Analysekomponenten einge- 
bettet sind, eine erweiterte Rolle zu: sie bildet den methodischen Rahmen, in 
dem sprachwissenschaftlich fundiert Teilanalysen zusammengeführt, die 
Adäquatheit möglicher Operationalisierungen eines Konstrukts überprüft oder 
mit indirekten Annäherungen an ein operationell schwer zu fassendes theore- 
tisches Konzept experimentiert werden kann. Gewissermaßen erweitert die 
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Infrastruktur so die klassische Palette linguistischer Tests und fügt sich in eine 
differenzierte empirisch gestiitzte Argumentation ein. 


Jenseits der „Standardkorpusdaten“, 

Wenn in der Korpusforschung der Untersuchungsgegenstand in einer oder 
mehreren Dimensionen von den gut erschlossenen Referenzkorpora abweicht 
bzw. wenn unterschiedliche Ebenen der linguistischen Beschreibung zusam- 
mengeführt werden, gelten bestimmte „Validitätsgarantien“ aus dem Einsatz 
von Standardwerkzeugen auf Standarddaten nicht mehr: Das Part-of- 
Speech-Tagging eines vom orthographischen Standard abweichenden Unter- 
suchungskorpus führt offensichtlich zu einer verringerten Vorhersagegenauig- 
keit gegenüber publizierten Evaluationsergebnissen auf Standard-Testdaten 
(die zunächst nicht genau beziffert werden kann). Folglich erzeugen Such- 
muster für syntaktische Konfigurationen, die auf Part-of-Speech-Folgen auf- 
setzen, einen größeren Rauschanteil — wobei es sicherlich selbst unter der 
Hypothese einer perfekten Part-of-Speech-Analyse syntaktische Varianten 
gäbe, die durch das gewählte Suchmuster nicht erfasst werden (was bei der 
Auswertung der Filterergebnisse nach Möglichkeit berücksichtigt werden 
sollte). Selbst bei einer augenscheinlich „standardkonformen“ Textgestalt 
führt der Einsatz von Werkzeugen außerhalb des Sprachregisters und der 
vorherrschenden inhaltlichen Textdomänen aus dem Entwicklungskorpus zu 
teils erheblichen Qualitätseinbußen.! 

Nun wäre eine denkbare Reaktion auf diese Beobachtungen, automatische 
Annotationsschritte grundsätzlich nur dann einzusetzen, wenn das Untersu- 
chungskorpus in allen relevanten Dimensionen eine strikte Erweiterung des 
Entwicklungskorpus darstellt — für welches eine sorgfältige Überprüfung der 
Werkzeugvaliditat vorliegt. Eine Verlagerung auf andere Korpora wäre nur auf 
Basis einer Neuentwicklung oder umfassenden Anpassung der Modelle zuläs- 
sig (einschließlich der manuellen Annotation einer ausreichend großen Stich- 
probe von Testdaten aus dem Zielkorpus). Als Konsequenz würde dieses Vorge- 
hen allerdings die Vorzüge der Arbeit mit Computermodellen im Kern stark 
beschneiden: Um seltenere Varianten im Sprachgebrauch aufzufinden bzw. 
ihre Verwendungskontexte zu beleuchten, muss ein verhältnismäßig großes 
Korpus herangezogen werden, das in relevanten Dimensionen naturgemäß 
heterogen zusammengesetzt ist. Eine systematische Untersuchung eines ent- 
sprechend großen Korpus ist nur realistisch, wenn Computermodelle einen au- 
tomatischen Zugriff erlauben. Das Risiko von falschen Modellvorhersagen lässt 


1 Vgl. Sekine (1997). 
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sich folglich nicht im Vorfeld ausschließen. An dieser Stelle setzt jedoch der 
linguistisch motivierte Einsatz der Infrastruktur ein: Durch ein reflektiertes 
Vorgehen, eine geeignete Kombination von Modellkomponenten und gezielte 
Qualitätssicherungsmaßnahmen kann das Forschungsteam für eine gegebene 
Studie das Risiko, dass Vorhersagefehler zu Fehlschlüssen führen, stark ein- 
dämmen. Selbst ohne aufwändige Validierungsstudien - wie sie für die 
abschließende Absicherung der ganz zentralen Hypothesen selbstverständ- 
lich nötig bleiben - kann ein sorgfältig reflektierter explorativer Einsatz von 
Computermodellen in eine differenzierte Argumentation zur Eingrenzung der 
Forschungsfrage eingeflochten werden. 

Dieser Beitrag will anhand von drei Szenarien zeigen, welchen Beitrag die 
Korpus- und Werkzeuginfrastruktur für ein solches Vorgehen leisten kann. In 
Abschnitt 2 stellen wir die sogenannte „Silberstandard-Methode“ der Korpus- 
annotation vor, die unter anderem durch die Kombination von unterschied- 
lichen Annotationsverfahren einen linguistisch fundierten Korpuszugang 
erschließt. Beispielhaft ausgeführt werden Aspekte der Methode in einem 
Szenario, das ein mündliches Sprachkorpus mit einer Kombinationen aus 
automatischer syntaktischer Annotation, automatischer Annotation von pro- 
sodischen Parametern, sowie manueller Prosodie-Annotation auf einem Teil- 
korpus erschließt. In Abschnitt 3 diskutieren wir die Entwicklung von Explo- 
rationsverfahren für Korpora mit Mehrebenen-Annotation im Rahmen der 
interaktiven Plattform ICARUS, die u.a. zur Exploration und Visualisierung 
von mündlichen Korpora mit Annotation zur Dependenzsyntax, prosodischen 
Parametern und Koreferenz eingesetzt werden kann. Abschnitt 4 widmet sich 
Fragen des Workflows bei linguistisch komplexeren Korpusstudien, die mit 
sprachtechnologischen Komponenten arbeiten und weist auf die Bedeutung 
einer systematischen Buchführung über die zugehörigen Prozessmetadaten 
hin. Abschnitt 5 beschließt den Beitrag mit einer knappen zusammenfassenden 
Betrachtung. 


2 Die Silberstandard-Methode 


2.1 Quantität und Qualität von sprachtechnologisch 
verarbeiteten Daten 


Ein wichtiger Schritt bei der sprachtechnologischen Verarbeitung von Daten ist 
die Annotation: das Explizitmachen von strukturellen Eigenschaften bestimm- 
ter Abschnitte in den Daten oder der Zuordnung der Abschnitte zu interpretato- 
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rischen Kategorien (im weitesten Sinne).* Dabei können die Abschnitte unter- 
schiedlich groß sein und auf verschiedenen Ebenen annotiert werden. Zu 
einem mehrseitigen Dokument kann ein Thema annotiert werden, ein Ab- 
schnitt eines Dokuments kann als Kopfzeile gekennzeichnet werden, ein Ab- 
schnitt eines Satzes als Nominalphrase und ein Zeitpunkt in einer Audiodatei 
als Zielpunkt des Satzakzents bei der Realisierung der Satzmelodie. 

Annotationen können manuell von Menschen oder automatisch von 
sprachtechnologischen Werkzeugen vorgenommen werden. Sie folgen soge- 
nannten Annotationsrichtlinien, die auf theoretischen Überlegungen beruhen 
und mögliche Kategorien sowie Kriterien für deren Identifikation vorgeben 
(vgl. Lemnitzer & Zinsmeister 2015: 101ff., zur Entwicklung von Annotations- 
schemata). Gängige linguistische Annotationsaufgaben sind in der Regel unter 
der Annahme einer weitgehend objektiven Entscheidungsmöglichkeit konzi- 
piert. Das heißt, es wird davon ausgegangen, dass menschliche Annotatorin- 
nen und Annotatoren nach einer Einweisungsphase aufgrund ihrer Sprach- 
kompetenz und des im Korpus sichtbaren Kontexts in der Lage sind, 
intersubjektiv übereinstimmende Analyseentscheidungen zu treffen. Analyse- 
fragen, die individuell-subjektive Interpretationsentscheidungen beinhalten, 
sollten nach diesem Ansatz nicht in die Annotation eingehen. Während der 
Entwicklung von Annotationsrichtlinien werden entsprechend testweise manu- 
elle Mehrfachannotationen desselben Materials durchgeführt. Wenn es zwi- 
schen den Annotierenden zu abweichenden Analyseentscheidungen kommt, 
muss geklärt werden, ob es sich schlicht um ein Versehen handelt oder ob die 
Richtlinien präzisiert werden können, damit im gegebenen Kontext intersub- 
jektiv verlässliche Entscheidungen getroffen werden.? 

Der Grundsatz der intersubjektiv entscheidbaren Annotationsziele erweist 
sich als sehr geeignete Arbeitshypothese — wenn sich auch nie restlos aus- 


2 Neben sprachtechnologischen Werkzeugen, die für Eingabedaten in eine Ausgabestruktur 
überführen (unter Verwendung von Regelwissen und/oder probabilistischen Modellen), gibt 
es Werkzeuge, die inhärente Muster in den Daten mit „unüberwachten“ Verfahren aufdecken. 
Beispiele dafür sind automatische Clustering-Verfahren für Wortformen oder andere Einheiten 
aufgrund des Verwendungskontexts und die Latent Topic-Modellierung (Verbreitet ist die 
Modellklasse der Latent Dirichlet Allocation, Blei, Ng & Jordan (2003).), mit der eine Text- 
sammlung aufgrund der Kookkurrenz von (tendenziell semantisch verwandten) Wortformen 
nach automatisch induzierten Wortfeldern differenziert wird. Auch solche Ansätze können im 
sprachwissenschaftlichen Forschungsprozess gewinnbringend eingesetzt werden; hier konzen- 
trieren wir uns jedoch auf Werkzeuge mit einer extern überprüfbaren Ausgabe - der Annotation. 
3 Eine nicht unumstrittene Pointierung dieses Vorgehens liegt in der Strategie, die Annotati- 
onsaufgaben so zu wählen, dass ein 90 %iges Inter-Annotator-Agreement erreicht wird Hovy 
et al. (2006). 
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schließen lässt, dass gelegentlich die Annotation einer für sich genommen 
ambigen linguistischen Einheit (wie der Anbindung einer Präpositional- 
phrase bei der syntaktischen Annotation) auf impliziten Hinweisen aus dem 
Korpuskontext aufbaut - also eine subjektive Interpretation beinhaltet, in 
der auch kompetente Sprecher und Sprecherinnen zu unterschiedlichen 
Schlüssen kommen können. In der weit überwiegenden Zahl von Annotations- 
entscheidungen kann jedoch von einer intersubjektiv „korrekten“ Option 
ausgegangen werden (in Bezug auf den Verwendungskontext) - dies ist eine 
wichtige Grundlage für die Entwicklung und Evaluation von automatischen 
Modellen und Werkzeugen.* 

Der verbleibende Grad an Subjektivität in einer Annotationsaufgabe 
(kombiniert mit der Schwierigkeit, die Annotationsrichtlinien stets konsistent 
umzusetzen) lässt sich operationalisieren, indem dieselben Daten von mehre- 
ren gut trainierten Annotatoren und Annotatorinnen bearbeitet werden und 
die Übereinstimmung in den Annotationen, das „Inter-Annotator-Agreement“, 
berechnet wird. 

Unterschiedliche Annotationen können aufeinander aufbauen, zum Bei- 
spiel wenn zunächst eine Wortartenannotation erfolgt, die dann bei der Anno- 
tation von syntaktischen Strukturen berücksichtigt wird, oder verschiedene 
Sichtweisen auf die Daten wiedergeben, zum Beispiel syntaktische Phrasen 
und Intonationsphrasen. 

Unabhängig davon, ob die Annotationen manuell oder automatisch erstellt 
werden, liegt das Ziel darin, die vorliegenden Daten möglichst genau ent- 
sprechend der Annotationsrichtlinien zu kategorisieren — also zu vermeiden, 
dass die Entscheidung von der „korrekten“ Option abweicht (auf die sich eine 
Annotationsgruppe einigen würde, wenn sie eine ausführliche Diskussion 
führten). Unter Ausschluss des seltenen Falls, dass im gegebenen Kontext zwei 
alternative Annotationen gleichermaßen vertretbar sind, sprechen wir bei einer 
abweichenden Annotation von einem Annotationsfehler. 

Beim Vergleich des manuellen und des automatischen Annotations- 
ansatzes wird deutlich, dass sich die jeweils typischen Arten von Fehlern un- 
terscheiden. Schwierig und daher fehleranfällig für automatische Verfahren 
sind Entscheidungen, in denen gleichartige Eingabe-Konfigurationen unter- 
schiedlich zu annotieren sind — in Abhängigkeit von linguistischem Wissen, 
das außerhalb der relevanten Beschreibungsebene liegt, bzw. sogar von Welt- 


4 Damit wird nicht suggeriert, dass eine linguistische Einheit (als „Type“) nicht systematisch 
ambig sein kann. Die Annahme ist jedoch, dass in jedem konkreten Verwendungskontext eine 
Desambiguierungsentscheidung getroffen werden kann. Das bewusste Spielen mit Mehrdeutig- 
keit, wie bei Ironie oder Wortwitz, wird hier ausgeklammert. 
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wissen. (Ein Beispiel sind globale syntaktische Ambiguitäten wie die Subjekt/ 
Objektambiguität in „eine Entscheidung erwartet das Parlament noch heute“, 
die für menschliche Annotatoren zumeist offensichtlich auflösbar sind, wäh- 
rend eine Operationalisierung von konsistenten, rein oberflächenabhängigen 
Kriterien unmöglich ist.) Automatische Werkzeuge können in diesen Fällen nur 
auf die vorgegebene Wissensbasis oder antrainiertes probabilistisches Wissen 
zurückgreifen, also eine Annotation „raten“. Bestimmte Zieloptionen, die sich 
aus dem Oberflächenkontext nicht erschließen lassen, werden diese Verfahren 
also systematisch falsch behandeln.” Gerade bei probabilistischen Ansätzen 
kann es bei nicht-trivialen Annotationsentscheidungen zu einem „Overfitting“ 
kommen, besonders wenn die Trainings- bzw. Entwicklungsdaten homogener 
waren als das Spektrum der Anwendungsdaten. Das Modell hat dann eine 
übermäßige Tendenz zu einer Annotationsentscheidung, die in den Trainings- 
daten häufig auftrat. Beispiele gibt es auf allen Ebenen: So basieren die 
üblichen syntaktischen Trainingskorpora auf Zeitungsartikeln und enthalten 
beispielsweise nur sehr wenige Fragen. Für die Wortartenannotation führen 
Lemnitzer & Zinsmeister (2015: 58) (1), (2) und (3)° als Beispiele für unter- 
schiedliche Lesarten von einen an. Während die Lesarten als indefiniter Artikel 
in (1) und Indefinitpronomen in (2) sehr wahrscheinlich vom Modell abgedeckt 
sind, ist die Verwendung als Verb wie in (3) unter Umständen unerwartet. 


(1) Diese Perspektive ermögliche einen neuen Blick auf gesellschaftliche Ver- 
hältnisse. 


(2) Gleichzeitig lautet der Appell an die Mieter, sich doch einen der Tiefgara- 
genplätze anzumieten. 


(3) [Sie] wollen [...] von Bremen aus die Republik wieder einen. 


Bei der manuellen Annotation sind die eben genannten Fehlertypen praktisch 
nicht zu erwarten, dagegen sind hier Fehler häufig auf Ermüdungseffekte oder 
inkonsistenten Umgang mit feingliedrigen Unterscheidungen zurückzuführen. 
Dies schlägt sich so nieder, dass gleichartige linguistische Einheiten in ver- 
gleichbaren Kontexten inkonsistent annotiert sind. Fehler dieser Art lassen 
sich durch exhaustive Mehrfachannotation minimieren. Für anspruchsvolle 
manuelle Annotation ist ein Verfahren üblich, bei dem jede Abweichung in der 
Annotationsgruppe diskutiert wird oder von einer weiteren Person aufgelöst 


5 Allerdings wird bei maschinellen Lernverfahren mit reichen Feature-Mengen das Verhalten 
nicht immer erkennbar systematisch sein. 
6 (Gekürzte) Korpusbelege aus TüBa-D/Z; übernommen aus Lemnitzer & Zinsmeister (2015: 58). 
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wird. Die resultierenden Annotationen werden oft als „Goldstandard“ bezeich- 
net, wobei sich „Gold“ auf die zu erwartende hohe Qualität der Annotation 
bezieht, da diese nicht nur einer manuellen Annotation sondern auch einem 
Abgleich unterzogen wurden. 


Vorteile der automatischen Annotation 

Obgleich automatische Annotationen generell zu höheren Fehlerquoten füh- 
ren, bringt die systematische Gleichartigkeit des Systemverhaltens Vorteile: Bei 
einer manuellen Nachkorrektur einer automatischen Annotation (im Ergebnis 
also einem semi-automatischen Verfahren) kann bei bestimmten Arten von 
Fehlern die Gesamtheit der möglichen Fehlerinstanzen im Korpus leicht er- 
mittelt werden und dann systematisch nachannotiert werden (manche Fehler 
lassen sich auch praktisch automatisch korrigieren, sofern kontextsensitive 
Ambiguität ausgeschlossen werden kann). 

Der größte Vorteil einer automatischen Annotation besteht jedoch darin, 
dass in kurzer Zeit weitaus größere Datenmengen verarbeitet werden können 
als bei der manuellen Annotation. Sofern die Korpusannotation vordringlich 
dazu dient, Belegstellen für eine anschließende (sprachwissenschaftliche) 
Feinuntersuchung aufzufinden, ist es — gerade bei der Erforschung nieder- 
frequenter Phänomene - von übergeordnetem Interesse, über Annotationen 
eines möglichst großen Korpusausschnitts zu verfügen. Abstriche bei der Ver- 
lässlichkeit jeder Einzelannotation können eher in Kauf genommen werden. 
Für gängige Annotationsebenen, wie dem Part-of-Speech-Tagging oder der syn- 
taktischen Dependenzstruktur, sind Datenmengen in der Größe von über 
500 Millionen Sätzen, zum Beispiel aus Webkorpora (Schäfer 2015) verarbeit- 
bar. Auf diese Weise können in der Tat auch für seltene strukturelle Phänome- 
ne Belegstellen aufgefunden werden (etwa Passive von reflexiven Verben wie: 
„Da wird sich gewunden und auf Zeit gespielt.“’) - wenn sich auf Basis von 
Standardannotationen Suchfilter formulieren lassen, die die Belegkandidaten 
hinreichend einkreisen.® 

Für Korpusstudien, die jenseits der explorativen Korpuserschließung 
Hypothesen zur quantitativen Verteilung von alternativen Varianten eines Phä- 
nomens oder konkurrierenden Konstruktionen empirisch überprüfen sollen, 
muss im Einzelfall validiert werden, ob ein eingesetztes automatisches Annotati- 
onsverfahren robust genug und hinreichend unabhängig von der Zielfrage ist, 


7 Aufgefunden über Volltextsuche (Google Books) in: Claudius Rosenthal, Matthias Schreiber 
(2001): Nachdenkliches für Führungskräfte, Witten: SCM R.Brockhaus. 
8 Vergleiche die Korpusstudie in Zarrieß, Schäfer & Schulte im Walde (2013). 
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so dass die studienrelevanten Frequenzzählungen durch die erwartbaren An- 
notationsfehler höchstwahrscheinlich nicht verfälscht werden. So dürfte es un- 
bedenklich sein, sich auf die Vorhersagen eines automatischen Part-of-Speech- 
Taggers zu verlassen, wenn beispielsweise Subkorpora hinsichtlich eines stär- 
ker nominaler Schreibstils vs. eines stärker verbalen Schreibstils kontrastiert 
werden sollen (gegeben ein standardsprachliches Ausgangskorpus). Gelegent- 
liche Fehler bei der Kategorisierung von Verben und Nomina sollten über die 
Subkorpora hinweg gleich wahrscheinlich auftreten. Hingegen könnte es pro- 
blematisch sein, automatische Annotationen eines Dependenzparsers zur 
empirischen Vorhersage von abweichenden Valenzrahmen einer gegebenen 
Gruppe von niedrigfrequenten Verben heranzuziehen (womöglich auf Basis 
eines Sprachausschnitts, der sich von den Trainingsdaten des Parsers unter- 
scheidet). In letzterem Fall besteht ein erhebliches Risiko, dass einige wenige 
Einzelfehler, wie sie bei jeder automatischen Annotation vorkommen, starke 
Effekte auf das intendierte Analyseergebnis haben. 

In jedem Fall sollte das Analyseverhalten eines automatischen Annotations- 
werkzeugs unabhängig überprüft werden, sofern systematische Schlussfolgerun- 
gen aus der Annotation gezogen werden sollen. Bei Standard-Werkzeugen liegen 
in der Regel Performanzdaten für Goldstandard-Testdaten vor, die eine Größen- 
ordnung der erwartbaren Fehlerraten vorgeben. Allerdings ist bekannt, dass 
die Qualität von Annotationswerkzeugen sich zum Teil überraschend stark 
verschlechtert, wenn sich das Sprachregister, die Inhaltsdomäne und andere 
Faktoren in der Anwendung von den Entwicklungsdaten entfernen. Für eine 
verlässliche Einschätzung der Validität kann es daher notwendig werden, in 
die manuelle Annotation von Anwendungsdaten (entsprechend den aufgabe- 
spezifischen Annotationsrichtlinien) zu investieren und so einen eigenen Gold- 
standard für die relevanten Charakteristika der untersuchten Daten zu erzeugen. 

Der Aspekt der Annotationsvalidierung in Bezug auf die Charakteristika 
des Anwendungskorpus ist in der Praxis häufig nicht im Bewusstsein der 
Sprachtechnologie-Anwender, wenn dank der leichten Verfügbarkeit von lin- 
guistischen Standard-Annotationswerkzeugen (beispielsweise im Rahmen der 
CLARIN-Infrastruktur? oder beim Einsatz der Stanford CoreNLPWerkzeuge!®) 
Modelle ohne Absicht außerhalb der Entwicklungsdomäne und -subsprache 
eingesetzt werden. Problematisch kann dies insofern werden, als die mögli- 
chen Verfälschungen bis zuletzt übersehen werden können - sie werden in der 
Regel nur zu einer Verschiebung der Zwischenergebnisse führen, nicht zu radi- 
kal unerwarteten Verteilungen, die eher ins Auge stechen. Dennoch können 


9 https://www.clarin.eu/ (letzter Zugriff: 16. 11. 2017). 
10 Manning et al. (2014), https://stanfordnlp.github.io/CoreNLP/ ( letzter Zugriff: 16. 11. 2017). 
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Schlussfolgerungen, die aus einer Analysekette gezogen werden, durch derarti- 
ge Verfälschungen vollständig invalide werden." 


2.2 Zwischen Goldstandard und ungeprüfter Annotation 


Da einerseits die Erstellung von Goldstandardannotationen ausgesprochen 
aufwändig ist, andererseits der ungeprüfte Einsatz von automatischen Annota- 
tionswerkzeugen Gefahren birgt, stellt sich bei der Arbeit mit großen, automa- 
tisch annotierten Korpora die Frage, ob und wie eine bessere Absicherung der 
Verlässlichkeit der Annotationen möglich ist. Zwischen den strengen metho- 
dischen Ansprüchen einer manuellen Goldstandardannotation (die jedoch auf- 
grund des von Natur aus schmalen Umfangs eingeschränkt nutzbar ist) und 
der unreflektierten Ad-hoc-Anwendung eines Sprachtechnologie-Werkzeugs 
auf das eigene Untersuchungskorpus (wie dies tausendfach geschieht) gibt es 
ein breites Spektrum von denkbaren Verfahren und Arbeitspraktiken, mit 
denen die effektive Annotationsqualität erheblich erhöht werden könnte. Eine 
entsprechend nachbereitete automatische Korpusannotation — ohne vollstän- 
dige manuelle Überprüfung, nicht zuletzt wegen der Skalierbarkeit, sondern 
nach Möglichkeit mit zusätzlichen automatischen Verfahren — wird zuweilen 
als eine „Silberstandard-Annotation“ bezeichnet (vgl. z.B. Rebholz-Schuhmann 
et al. 2010). Der Begriff lässt offen, welche Verfahren eingesetzt werden und 
wo im Spektrum das endgültige Ergebnis lokalisiert ist, eignet sich unseres 
Erachtens jedoch gut, um einen methodischen Anspruch für realistische reflek- 
tierte Korpusarbeit zu markieren. Die Autorinnen und Autoren, nicht zuletzt 
aus den Erfahrungen mit der projektübergreifenden Korpusarbeit im Rahmen 
des Sonderforschungsbereichs 732,'* verstehen unter einem (dynamischen) 
„silberstandardkorpus“ daher auch keine statische Ressource, bei der am Ende 


11 Ein Beispiel, das David Jurgens (Stanford University, Computer Science) anführt (Vortrag 
IMS, Universität Stuttgart, Oktober 2016) ist folgendes: Die Erkennung, in welcher Sprache 
eine Kurzmitteilung verfasst ist, gilt als gelöstes sprachtechnologisches Problem. Entspre- 
chend werden beispielsweise nach Sprache gefilterte Twitter-Nachrichten für demographische 
Untersuchungen ausgewertet. Es zeigt sich allerdings, dass ein erheblicher Anteil von Kurz- 
nachrichten in afroamerikanischem Englisch nicht der Kategorie Englisch zugeordnet werden 
(was in den Standard-Testszenarien jedoch nicht ins Gewicht fällt). Nutzt man eine Analyse 
„aller“ englischsprachigen Kurznachrichten beispielsweise für die Wahlforschung, kann es 
aber zu systematisch falschen Vorhersagen kommen. 

12 SFB 732: Inkrementelle Spezifikation im Kontext; eine Kooperation zwischen dem Institut 
für Linguistik und dem Institut für Maschinelle Sprachverarbeitunge an der Universität Stutt- 
gart; https://www.uni-stuttgart.de/linguistik/sfb732/ (letzter Zugriff: 16.11. 2017). 
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einer Phase der automatischen Annotation einmalig bestimmte Konsistenz- 
Werkzeuge eingesetzt wurden und die Annotationen anschließend eingefroren 
wurden. Vielmehr sollten im Idealfall die Annotationen in einem Silber- 
standardkorpus sukzessive mehr und mehr abgesichert werden - indem 
beispielsweise eine Annotation in einem neuen Kontext genutzt wird und 
mögliche Inkonsistenzen zutage treten und korrigiert werden. Im Umkehr- 
schluss heißt dies, dass zu einem gegebenen Zeitpunkt bestimmte Annota- 
tionsebenen im Silberstandardkorpus durchaus suboptimal sein dürfen - evtl. 
sogar weitgehend unmodifizierte automatische Analyseergebnisse, die jedoch 
als Untersuchungskontext für eine andere Ebene von Belang ist, deshalb mit- 
geführt und in der weiteren Entwicklung verfeinert wird. (Die Herkunft und 
der Verlässlichkeitsstatus sowie mögliche Workflows für eine systematische 
Verbesserung in Abhängigkeit von Weiterentwicklungen bei den verwendeten 
Komponenten sollten mit den Annotationen abgelegt werden. Diese verhältnis- 
mäßig komplexen Dokumentations- und Infrastrukturaufgaben diskutieren wir 
gezielt in Abschnitt 4.) 

Im Sonderforschungsbereich 732 wird für die ebenenübergreifende linguis- 
tische Forschung ein verhältnismäßig großes Korpus von Radiointerviews auf- 
gebaut und im Sinne der Silberstandard-Methode aufbereitet (Eckart & Gärtner 
2016). Für die Interviews ist neben der Audio-Datei des Interviews jeweils ein 
orthographisches Transskript verfügbar, das bereits vom Radiosender (SWR2) 
angefertigt wird. Zwischen spontanen Dialogen und vollständig geplanten Re- 
debeiträgen angesiedelt, eignen sich Radiointerviews sowohl als Testfeld für 
den Einsatz von automatischen Annotationswerkzeugen jenseits der computer- 
linguistischen Standard-Textsorte Zeitungsartikel als auch für die Anwendung 
von akustischen Modellen für die automatische Annotation von prosodischen 
Parametern, die bislang im Kontext des DIRNDL-Radionachrichtenkorpus ent- 
wickelt und getestet wurden. 

Als Grundlage für eine Evaluation der automatischen Annotationsschritte 
auf dem Zielkorpus werden derzeit Goldstandardannotationen für einen klei- 
nen Ausschnitt des Radiointerview-Korpus erzeugt, die Wortarten, Koreferenz 
und Diskursstruktur enthalten. Die Textdaten des Gesamtkorpus werden auto- 
matisch mit Wortarten und Dependenzstrukturen, die Audiodaten phonetisch 
und prosodisch annotiert. Die prosodische Annotation erfolgt mit Hilfe eines 
phonetischen Intonationsmodells, PalntE, das im Folgenden näher beschrie- 
ben wird. Die Zusammenführung der Annotationen wird über die Positionsan- 
ker des „Linguistic Annotation Frameworks“ (ISO 24612:2012) ermöglicht. Als 
Explorationswerkzeug dient ICARUS (Gärtner et al. 2013: vgl. Abschnitt 3). 

Größere Projektverbünde oder Kooperationen von Projekten mit verschie- 
denen theoretischen wie pragmatischen Ansätzen sind typische Anwendungs- 
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felder fiir die Silberstandardannotation. Denn gerade wenn verschiedene Sichten 
auf die gleichen Daten vorliegen und verschiedene Ebenen der linguistischen 
Betrachtung zueinander in Beziehung gesetzt werden, ergibt sich aus dem Kon- 
sistenzabgleich zwischen unterschiedlichen Annotationspfaden ein Informa- 
tionsgewinn, der in die Exploration der Daten und die Konfidenzbewertung der 
Annotationen einbezogen werden kann (vgl. Abschnitt 2.3). 


Automatische Annotation von Intonation mit PalntE 

Die Intonation einer Äußerung ist unter anderem durch „Intonationsereignisse“ 
gekennzeichnet: lokale Minima oder Maxima im Grundfrequenzverlauf, die 
Prominenz hervorrufen. So kann zum Beispiel der Satz „Frau Merkel spricht“ 
potentiell auf jedem der Wörter einen Satzakzent (typischerweise gekennzeich- 
net durch eine tonale Prominenz, Längung und größere Intensität) tragen. Die 
verschiedenen Realisierungen gehen mit verschiedenen Fokusstrukturen ein- 
her, so betont beispielsweise die Realisierung FRAU Merkel spricht (mit Satz- 
akzent auf „Frau“), dass es sich um Frau, und nicht um Herrn Merkel handelt 
(kontrastiver Fokus). Solche Satzakzente können mithilfe des PalntE-Modells 
(PalntE: Parametrisierung von Intonations-Ereignissen; Möhler 1998; Mohler & 
Conkie 1998; Möhler 2001) modelliert werden. 

PalntE ist ein phonetischer, datenbasierter Ansatz zur Intonationsmodel- 
lierung, ursprünglich entwickelt zur Generierung des Grundfrequenzverlaufs 
(F,Kontur) in der Sprachsynthese, von dem in jüngerer Zeit in verschiedenen 
korpusphonetischen Studien zur Satzintonation (Calhoun & A. Schweitzer 
2012; Schauffler & K. Schweitzer 2015; K. Schweitzer et al. 2015) sowie in zwei 
Studien zu lexikalischen Tönen (Kelly & K. Schweitzer 2015; A. Schweitzer & 
Vu 2016) Gebrauch gemacht wurde. Darüber hinaus wurde das Modell erfolg- 
reich in der automatischen Annotation von Prosodie eingesetzt (A. Schweitzer 
2010). Das Modell passt an die im Signal gemessene (bzw. mit Standardverfah- 
ren geschätzte) und geglättete F,-Kontur mithilfe einer parametrisierten mathe- 
matischen Funktion eine Kurve an, deren Verlauf von sechs freien Parametern 
bestimmt wird. Die Beschreibung der Kontur erfolgt über ein Fenster von drei 
Silben hinweg. Die Funktion modelliert vollständige Gipfel (also die Aufwärts- 
und die Abwärtsbewegung), aber auch Konturen, die lediglich steigen oder 
fallen, indem zwei sigmoide, also s-förmige, Kurven übereinander gelegt wer- 
den. Für Konturen ohne Gipfel kann auch nur ein Sigmoid, also zum Beispiel 
nur der Anstieg oder nur der Fall der Kontur, zur Modellierung verwendet wer- 
den. Das Modell entscheidet in mehreren Schritten, welches Modellierungsver- 
fahren am besten zur tatsächlichen Kontur passt und welche Werte die sechs 
freien Parameter annehmen müssen, um die Original-Kontur am genauesten 
nachzubilden. Nach dem Modellierungsschritt ist also ein intonatorisches 
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Abb. 6.1: Das PalntE Modell. (a) zeigt einen Auszug aus dem DIRNDL Korpus, dargestellt in 
Wavesurfer (Sjölander & Beskow 2000). Die unterste Spur zeigt die Annotation auf Wortebene, 
darüber das Sprachsignal, gefolgt von der F,-Kontur und in der obersten Spur wird 

die geglättete F,-Kontur dargestellt. Das PalntE-Modell operiert auf der geglätteten F,-Kontur. 
(b) zeigt die PalntE Modellierungsfunktion und ihre Parameter im drei-silbigen Analysefenster 
(Abbildung aus Möhler 2001). Die Silbe, für die die Parametrisierung ausgeführt wird, ist 

mit einem Stern gekennzeichnet. Auf der horizontalen Achse ist die Zeit (normalisiert über 
die Silbendauer) abgetragen. Die zwei sigmoiden Kurven bilden einen Gipfel in der dritten 
Silbe. Parameter b kodiert die zeitliche Verankerung des Gipfels. Auf der vertikalen Achse ist 
die Grundfrequenz in Hertz dargestellt. Die Größe des Anstieges vor, bzw. des Falls nach 
dem Gipfel entspricht den Parametern c1 und c2 - diese bezeichnen also Differenzen in 
Hertz. Parameter d reflektiert die absolute Höhe des Gipfels in Hertz. Parameter al und a2, 
die der Steigung der Kurve vor bzw. nach dem Gipfel entsprechen, sind nicht dargestellt. 


Ereignis, zum Beispiel ein Satzakzent, durch sechs numerische Werte repräsen- 
tierbar. 

Anders als andere Ansätze, wie zum Beispiel die automatische Beschrei- 
bung von Intonationskonturen mit Hilfe von Polynomen (vgl. Reichel 2014: 
und Referenzen darin), sind diese Parameter ohne weiteres linguistisch inter- 
pretierbar, da sie in naheliegendem Zusammenhang mit den üblichen perzep- 
tiven Kategorien stehen - gleichzeitig sind sie theorieneutral, da komplexere 
theoretische Konzepte nicht gebündelt annotiert werden. So beschreiben zum 
Beispiel zwei Parameter (Parameter al und a2) die Steigung der Kurve vor bzw. 
nach dem Gipfel, ein weiterer Parameter (b) steht für die zeitliche Verankerung 
des Gipfels innerhalb des Analysefensters, das 3 Siben umfasst (die Silbendauer 
ist dabei normalisiert, so dass die aktuelle Silbe von O bis 1, und das gesamte 
Analysefenster von -1 bis 2 reicht), zwei Parameter (c1 und c2) beschreiben 
die Höhendifferenz im Anstieg vor dem Gipfel bzw. in der abfallenden Flanke 
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(dem „Fall“) nach dem Gipfel in Hertz und ein Parameter (d) kodiert die Höhe 
des Gipfels in absoluten Hertz-Werten (vgl. Abb. 6.1b). 

Durch die Kodierung von Intonationsereignissen in direkt interpretier- 
baren numerischen Werten können diese sowohl mit Hilfe von etablierten nu- 
merischen Ähnlichkeitsmaßen verglichen als auch mit linguistischem Wissen 
klassifiziert werden (zum Beispiel kann das intonationsphonologische Wissen, 
dass bei einem fallenden Akzent der Anstieg vor dem Gipfel kleiner sein muss 
als der darauffolgende Fall, bei der Suche von fallenden Akzenten in die Bedin- 
gung cl < c2 „übersetzt“ werden). Dadurch wird auch erreicht, dass Prosodie 
unabhängig von intonationsphonologischen Modellen auf phonetischer Ebene 
beschrieben werden kann. 

Eine theorieunabhängige Beschreibung von Intonation bringt immense 
Vorteile im Bereich der Nachhaltigkeit und gemeinsamen Nutzbarkeit von Kor- 
pora gesprochener Sprache. So existiert zum Beispiel allein für das Deutsche 
eine Vielzahl etablierter intonationsphonologischer Modelle (Kohler 1991; Féry 
1993; Mayer 1995; Grice, Baumann & Benzüller 2005; Peters 2005), die jeweils 
eigene Annotationsschemata benutzen, was die gemeinsame Nutzung von 
Korpora und anderen Ressourcen erschwert und nicht selten sogar unmöglich 
macht. Zwar gibt es in den letzten Jahren eine aktive Initiative, ein gemein- 
sames System für das Deutsche zu definieren (Kügler et al. 2015), dessen Anno- 
tationen problemlos in andere Systeme überführt werden können, jedoch ist 
diese nicht nur mit einem erheblichen Annotationsaufwand verbunden (der 
Zeitaufwand für das manuelle Annotieren von Intonation wurde mit 100- bis 
200-mal der Echtzeit des Sprachsignals beziffert, vgl. Syrdal et al. 2001); sie 
erfordert zudem jeweils einen zusätzlichen Übersetzungsschritt. Zwar basiert 
ein automatisches Intonationsmodell wie PalntE auf akustischen Eigenschaften, 
nicht auf menschlicher Perzeption und ist somit nicht äquivalent zu manuell 
annotierten Kategorien, jedoch kann ein automatischer Ansatz zur Datenexplo- 
ration und zur Extraktion relevanter Subkorpora sowie zur Sichtung ungelabel- 
ten Materials und zur rein akustischen Analyse von Grundfrequenzverläufen 
verwendet werden. Durch den Einsatz eines Modells, das keine intonations- 
phonologischen Annahmen macht, werden Datensätze gesprochener Sprache 
theorie-übergreifend nutzbar — und dadurch noch nützlicher. 


2.3 Maßnahmen zur besseren Nutzbarkeit großer annotierter 
Datenmengen 


Eine Technik zur Absicherung bzw. Qualitätsverbesserung der Annotation im 
Rahmen der Silberstandard-Methode liegt in einem sogenannten extrinsischen 
Konsistenz-Abgleich, d.h., es sind zwei oder mehr Pfade hin zu einer bestimm- 
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ten Annotationsebene vorhanden, und die vorhergesagten Elemente auf dieser 
Ebene können miteinander verglichen werden (ohne Anschauung der intrinsi- 
schen Modelleigenschaften, die zur Vorhersage geführt haben — daher extrin- 
sisch). Wir können unterscheiden zwischen einem horizontalen und einem ver- 
tikalen extrinsischer Konsistenzabgleich, wobei sich horizontal und vertikal 
auf die Relationen von Annotations- (bzw. Analyse-)Ebenen nach Eberle et al. 
(2012) beziehen. 


Horizontaler Konsistenzabgleich 

Hier werden mehrere alternative Annotationen auf derselben Analyseebene 
überprüft. Wurden diese mit unabhängigen Verfahren erzeugt, ist zu erwarten, 
dass die Fehler sich unterschiedlich verteilen. Ein Beispiel hierfür sind zum 
Beispiel mehrere Parser zur Erstellung syntaktischer Annotationen. George 
(2016) vergleicht die Ausgaben dreier statistisch trainierter Dependenzparser? 
und hält die Übereinstimmung als zusätzliche Annotationsebene fest, indem 
für die einzelnen Dependenzkanten der Grad des Konsens abgelegt wird - als 
Indikator für die Verlässlichkeit.'* 

Abbildung 6.2 zeigt die dependenzsyntaktische Analyse zweier Sätze durch 
den TurboParser” (Martins, Almeida & Smith 2013), trainiert auf einer Version 
des Nachrichtenkorpus TIGER" (Brants et al. 2004; Seeker & Kuhn 2012). Die 
Farbintensität entspricht der Übereinstimmung mit zwei weiteren Werkzeugen: 
Stimmen alle drei Parser bei der Wahl des syntaktischen Kopfes überein, ist 
die Kante dunkel - je heller die Kante, desto weniger Übereinstimmung. Die 
Sätze stammen aus Webdaten (Schäfer 2015), daher wird in Abbildung 6.2a der 


a) MO b) MO 
A SB 
MO 
sehe ich das richtig ? Mach ich alles richtig ? 
VVFIN PPER PDS ADJD $. VVIMP PPER PIS ADJD $. 


Abb. 6.2: Dependenzannotation mit Verlässlichkeitskodierung. Die Anbindung des Satzzeichens 
wird für den Vergleich im Beispiel außer Acht gelassen und ist daher nicht angegeben. 


13 Graphbasierter Parser der Mate Tools (Bohnet 2010), IMSTrans (Björkelund & Nivre 2015) 
und TurboParser (Martins, Almeida & Smith 2013). 

14 Manche Werkzeuge beinhalten auch die Abschätzung der Vorhersage-Konfidenz; diese 
könnte in vergleichbarer Weise in die Explorationsumgebung einbezogen werden. 

15 http://www.cs.cmu.edu/-ark/TurboParser/ (letzter Zugriff: 16.11. 2017). 

16 Version 2.2. 
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Satzanfang kleingeschrieben und in Abbildung 6.2b die reduzierte Form Mach 
statt Mache verwendet. Für auf Nachrichtentexten trainierte Werkzeuge kön- 
nen solche Abweichungen von der erwarteten Schreibung ein Problem darstel- 
len. Während die Abweichung in Abbildung 6.2a (satzinitiale Kleinschreibung) 
robust verarbeitet wird und alle drei Parser darin übereinstimmen, ist dies 
in Abbildung 6.2b nicht der Fall (wegen der abweichenden Schreibung wird 
der Form fälschlich das Part-of-Speech-Tag für Imperative zugewiesen, so 
dass der Dependenzparser ein Personalpronomen ich nicht als zugehöriges 
Subjekt integrieren kann). TurboParser erkennt das Verb zwar als Wurzel des 
Satzes und ordnet ihm den Modifikator richtig als Dependenten zu, weist 
jedoch dem Subjekt und Objekt nicht den korrekten Kopf zu. Nur bei den beiden 
korrekt erkannten Dependenzkanten stimmen die anderen beiden Parser mit 
TurboParser überein, wie aus den helleren Grautönen in den anderen Fällen 
deutlich wird — eine Einschränkung auf „Konsens-Kanten“ bei der Korpus- 
suche hätte in diesem Fall also die Verlässlichkeit erhöht. George (2016) evalu- 
iert den Kombinationsansatz mithilfe des NoSta-D-Korpus (Dipper, Lüdeling & 
Reznicek 2013), das eine Goldstandard-Annotation von Dependenzanalysen 
auf verschiedenen Subkorpora enthält. Da sich die verwendeten Kategorien für 
die Dependenzrelationen zwischen NoSta-D und den Trainingsdaten der Parser 
unterscheiden, wurde die Evaluation auf einen Teil der Dependenzrelationen 
beschränkt. Als wichtige Annotationen wurden Hauptverb, Subjekt, Akkusativ- 
objekt und Dativobjekt gewählt. Auf allen Subkorpora von NoSta-D (histo- 
risches Korpus, Chatkorpus, gesprochene Sprache, Lernerkorpus, literarische 
Prosa und Nachrichtentext) führt die Wahl der Konsens-Kanten zu einer Ver- 
besserung der Genauigkeit (Precision), d.h. die als Annotation von Hauptverb, 
Subjekt, Akkusativobjekt und Dativobjekt identifizierten Kanten sind öfter 
richtig, als bei jedem der einzelnen Systeme; allerdings werden weniger der 
entsprechenden Kanten gefunden (Recall). Letzteres kann je nach Aufgaben- 
stellung gerade auf sehr großen Datenmengen aber gegebenenfalls in Kauf 
genommen werden. 

Generell deuten Fälle mit wenig Übereinstimmung oft auf schwierig zu an- 
notierende Phänomene hin. Neben einem Ausschluss dieser Datenpunkte aus 
der Ergebnisliste zur Erhöhung der Verlässlichkeit kann auch gezielt nach die- 
sen Fällen gesucht werden - beispielsweise um Bereiche zu identifizieren, für 
die eine systematische Nachkorrektur sinnvoll wäre (im gegebenen Beispiel 
könnte eine Modifikation des Part-of-Speech-Taggers angezeigt sein). Mit einer 
geeigneten Infrastruktur ist es denkbar, dass für Korpusrecherchen zu seltenen 
Phänomenen auf einem großen heterogenen Korpus sehr differenziert mit den 
„Eigenheiten“ der unterschiedlichen Werkzeuge umgegangen werden kann. 

Sogenannte Ensemble-Methoden nutzen die Kombination nicht nur zur 
Angabe von Verlässlichkeit, sondern erstellen beim Vergleich der einzelnen 
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Analysen eine kombinierte Annotationsebene, was im Ergebnis in der Regel 
zu einer höheren Annotationsqualität führt, da die unterschiedliche Fehler- 
verteilung der einzelnen Werkzeuge ausgenutzt werden kann (vgl. Surdeanu & 
Manning 2010: für Dependenzparsing). 

Fasst man das Konzept der horizontalen Konsistenz etwas weiter, schließt 
es auch die Kombination von Werkzeugen ein, die zwar Annotation derselben 
linguistischen Beschreibungsebene erstellen, zum Beispiel Wortartenannota- 
tion oder Syntaxannotation, dies aber nicht auf der Grundlage der gleichen 
Annotationsrichtlinien bzw. theoretischen Frameworks tun. Haselbach et al. 
(2012) führen Informationen aus Dependenz- und Konstituentenstrukturen 
zusammen, um Argumentstrukturen von nach-Partikelverben verlässlicher 
aus Webdaten zu extrahieren als nur auf Basis einer der Analysen. 


Vertikaler Konsistenzabgleich 

Durch die Zusammenführung von Annotationen verschiedener Ebenen kann 
die Konsistenz von linguistischen Beschreibungen validiert und ggf. verbessert 
werden — und auf diese Weise kann für manuelle Annotationen, die relativ 
subtile Entscheidungen erfordern, eine Plausibilitätsprüfung implementiert 
werden. Bei der Kuration des DIRNDL-Korpus (Eckart, Riester & Schweitzer 
2012) erfolgte dies durch einen Abgleich der phonetischen Intonationsbeschrei- 
bung durch das PalntE-Modell mit der manuellen (perzeptiven) phonolo- 
gischen Annotation von Intonation im GToBI(S)-Schema (Mayer 1995). Diese 
Art von extrinsischer Konsistenzüberprüfung auf der vertikalen Ebene wurde 
folgendermaßen vorgenommen: Die jeweilige Kategorie der manuellen Annota- 
tion wurde in eine phonetische Beschreibung unter Zuhilfenahme von PalntE 
Parametern übersetzt. So ist zum Beispiel ein H*L Akzent kanonisch definiert 
als ein Satzakzent mit einem lokalen Gipfel in der akzentuierten Silbe, gefolgt 
von einem Fall in die postakzentuierte Silbe. Es wird angenommen, dass die 
F,-Kontur zum lokalen Maximum hin ausgehend vom vorherigen Intonations- 
Ereigniss interpoliert wird, weswegen der Anstieg zum Gipfel hin weniger 
prominent ist als der Fall danach. Diese Beschreibung kann durch die PalntE 
Parameter c1, c2 und b formalisiert werden: c2 > c1 fordert einen Fall der größer 
ist als der Anstieg, und 0 < b < 1 fordert einen Gipfel in der akzentuierten Silbe. 
Anhand solcher Beschreibungen wurde die manuelle Annotation auf Plausi- 
bilität überprüft und gegebenenfalls manuell nachannotiert. 

Eine weitere Möglichkeit, die Eigenschaften von automatischen Annotatio- 
nen zur Qualitätsverbesserung auszunutzen, beruht auf der Gleichförmigkeit 
der Annotation über Korpusinstanzen hinweg, gegeben einheitliche Kontext- 
eigenschaften. Wird also ein Annotationsfehler entdeckt, können sehr schnell 
systematisch gleichförmige Instanzen aufgerufen werden und möglicherweise 
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automatisch korrigiert werden (sofern keine Ambiguität vorhanden ist, die mit 
schwer zu fassenden Kontextfaktoren in Zusammenhang steht). 

Die bisherige Diskussion ging implizit von Annotationswerkzeugen aus, 
die für die jeweiligen Annotationskategorien die kontextuell (mutmaßlich) 
intendierte Ausspezifikation eventueller Ambiguitäten vorzunehmen - ins- 
besondere also auch bei echter Ambiguität. Für synkretistische Formen, die 
auch im grammatischen Satzkontext formal nicht desambiguiert werden, wird 
also auf eine Präferenz aus möglichen Interpretation zurückgegriffen (dem 
gängigen Ansatz in der Sprachtechnologie folgend, für den eine Festlegung auf 
einzelne Lesarten naheliegend ist). Es gibt jedoch durchaus auch Annotations- 
werkzeuge, die bestehende grammatische Ambiguitäten als solche kenn- 
zeichnen, so der kaskadierte Finite-State Parser FSPar (Schiehlen 2003). (Viele 
andere bestehende Ansätze ließen sich mit einer entsprechenden Zielsetzung 
optimieren; im kombinierten morphologisch-syntaktischen Parsing-Ansatz 
von Seeker & Kuhn (2013) werden synkretistische Formen und Phrasen bei- 
spielsweise intern kodiert, die weitere Nutzung dieser Information wird jedoch 
nicht evaluiert, da in der Parser-Entwicklung sprachtechnologische Standard- 
Evaluationen etabliert sind.) Im Zuge germanistisch-sprachwissenschaftlicher 
Untersuchungen kann eine Einbeziehung dieser Information von großem 
Interesse sein — auch dies setzt eine ausdrucksstarke und handhabbare Infra- 
struktur zur Zusammenführung der Ergebnisse voraus. 

Zusammenfassend wird mit der Silberstandard-Methodik also Information 
aus verschiedenen Quellen zusammengeführt, um automatische Annotations- 
ansätze zu ergänzen, das Fehlerrisiko zu reduzieren und die Information besser 
nutzbar zu machen. Das führt nicht zwangsweise zu einer direkten Verbesse- 
rung der Annotationsqualität, aber zur verlässlicheren Exploration der Daten. 
Um die verschiedenen Datenebenen effektiv verwenden zu können, bedarf es 
einer Infrastruktur, welche die Forschenden bei der Exploration der vorhande- 
nen Daten unterstützt ohne dabei die Forschung inhaltlich einzuschränken. 
Solche Infrastrukturen sind daher theorieneutral und können beliebige Kombi- 
nationen von Kategorien über verschiendene Ebenen abfragen. Sie müssen 
in der Lage sein, verschiedene Annotationsebenen sowie verschiedene Aus- 
führungen einer Annotationsebene zu verarbeiten. Das umfasst auch und 
insbesondere die Schnittstelle zwischen Annotationen für gesprochene und 
geschriebene Sprache. 


17 Ein sehr weitreichender Ansatz zur Qualitätsverbesserung von - vorwiegend manueller — 
Korpusannotation, die von der Gleichförmigkeit von Kontexten ausgeht ist der DECCA-Ansatz 
(Dickinson & Meurers 2003; Boyd, Dickinson & Meurers 2008), der auch innerhalb des ICARUS- 
Werkzeugs zur Verfügung gestellt wird (Thiele et al. 2014). Mit einem derartigen Verfahren 
wird die intrinsische Konsistenz eines Annotationsansatzes überprüft. 
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3 Exploration mit ICARUS 


3.1 Eine interaktive Plattform zur Korpusanalyse 


Nicht nur in der klassischen Korpuslinguistik und in der computerlinguis- 
tischen Forschung, sondern in sehr vielen anderen Bereichen der Linguistik 
und in textorientierten Disziplinen in den geistes- und sozialwissenschaften 
besteht ein wachsendes Interesse an der Arbeit mit annotierten Korpora. Der 
Umfang der verfügbaren Korpusressourcen und die Art und Menge enthaltener 
Annotationen wächst stetig an. In selbem Maße führt dies allerdings auch 
dazu, dass eine rein manuelle Untersuchung solcher Ressourcen ohne Unter- 
stützung durch spezialisierte Werkzeuge immer weniger praktikabel ist. 

Interaktive Anwendungen zur Visualisierung, Exploration und Suche 
stellen sicher, dass den Forschenden weiterhin ein einfacher Zugang zu den 
Inhalten großer Ressourcen gewährleistet werden kann. Nachfolgend wird 
ICARUS'® als Beispiel einer solchen Anwendung vorgestellt und gezeigt, wie 
insbesondere Untersuchungen im Kontaktbereich von geschriebener und 
gesprochener Sprache von solchen interaktiven Zugangsmöglichkeiten profi- 
tieren können. 

ICARUS entstand als Werkzeug zur Visualisierung und beispielbasierten 
Suche auf Dependenz-Baumbanken und wurde kontinuierlich erweitert, um 
sowohl Annotationen für Koreferenz (Gärtner et al. 2014), als auch Prosodie 
(Gärtner et al. 2015) zu unterstützen — immer unter Beibehaltung des Fokus auf 
einen einfachen und schnellen Zugang zu Korpus-Ressourcen. Im Gegensatz 
zu web-basierten Visualisierungs- und Such-Werkzeugen wie ANNIS (Krause & 
Zeldes 2014) ist ICARUS als eigenständige und lokal auszuführende Anwen- 
dung implementiert, hat aber trotzdem den Vorteil einer einfachen Einrich- 
tung, die keine technischen Kenntnisse erfordert. Neben der Größe einzelner 
Korpora stellt auch die Vielzahl existierender Formate (CoNLL, TEI, TCF, Praat 
TextGrids, etc.), in denen diese verfügbar gemacht werden, Anwendungen vor 
immer wiederkehrende Herausforderungen. In der Basis-Version unterstützt 
ICARUS bereits diverse häufig verwendete Korpus-Formate und erlaubt auch, 
individuelle tabellarische Formate ähnlich den CoNLL-Formaten mittels eige- 
ner Schemata zu definieren. Zusätzlich ist die gesamte Anwendung modular 
als Sammlung von Plugins gestaltet, Erweiterungen zur Unterstützung ande- 
rer Formate oder Anpassungen bestehender Komponenten sind mit etwas 
Programmierkenntnis leicht umsetzbar. Da die Gesamtheit verfügbarer Annota- 


18 Interactive platform for Corpus Analysis and Research tools, University of Stuttgart (Gärt- 
ner et al. 2013). 
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tionen für viele Ressourcen eine übersichtliche Visualisierung schnell über- 
laden würde, kann in ICARUS flexibel ausgewählt werden, welche Annotations- 
ebenen wo und in welcher Form angezeigt werden sollen. Anwender und An- 
wenderinnen können somit die sichtbaren Informationen direkt an ihre 
individuellen Bedürfnisse anpassen. 

Eine besondere Eigenschaft von ICARUS ist die Verknüpfung von Annota- 
tionen aus den sonst häufig getrennten Bereichen geschriebener und gesproche- 
ner Sprache, welche hier zusammen visualisiert, exploriert und abgefragt wer- 
den können. Ressourcen aus Phonetik und Phonologie sind typischerweise 
zeit-aligniert, Annotationen besitzen also Anker (sogenannte time stamps) auf 
spezifische zeitliche Abschnitte in einem Sprachsignal, zum Beispiel für die 
Markierung von Silben oder Phonemen. Dem gegenüber stehen Textkorpora 
mit Annotationen, die entweder auf Bereiche von Zeichen in einem Text 
(character-aligniert) oder bestehende linguistische Einheiten wie Wörter oder 
Sätze zeigen. Primärdaten in ICARUS werden grundsätzlich durch Text-Korpora 
repräsentiert, welche allerdings mit Audio-Dateien verknüpft werden können. 
Annotationen oder die Tokenisierung der Text-Daten können zusätzlich mit 
Timestamp-Informationen versehen sein, damit eine Zuordnung verschiedener 
Bereiche in geschriebener und gesprochener Sprache möglich wird. 

In ICARUS führt dies dazu, dass Visualisierungen Koreferenz oder Depen- 
denzsyntax gemeinsam mit Annotationen gesprochener Sprache anzeigen kön- 
nen, wie beispielsweise Approximationen der F,-Kontur oder Betonungen auf 
einzelnen geschriebenen Wörtern oder Silben. Ebenfalls unterstützt wird das 
direkte Abspielen von Audiofragmenten für Textabschnitte auf verschiedenen 
Granularitätsebenen von Silben bis Sätzen. Für Forschende, die an Inter- 
aktionen von Phänomenen aus diesen beiden verschiedenen Modalitäten inte- 
ressiert sind, entfällt somit die Notwendigkeit, mehrere Werkzeuge parallel 
verwenden zu müssen. 

Die Kombination verschiedener Ebenen ist auch bei der Korpusabfrage in 
ICARUS möglich. Diese lässt sich direkt für quantitative Untersuchungen aus- 
nutzen. Suchanfragen haben immer die Form einer (Baum-)Struktur, für die 
passende strukturelle Instanzen (Dependenz- oder Koreferenz-Strukturen) im 
jeweiligen Ziel-Korpus gesucht werden. Auf dieser Ebene unterstützt die Suche 
existenzielle Negation von (Kinds-)Knoten, Disjunktion, transitive Hüllen von 
Kanten-Erreichbarkeit und diverse Constraints für Knoten (Wurzel, Blatt etc.). 
Abhängig davon repräsentieren Knoten und Kanten in der Anfrage hierbei 
ebenfalls unterschiedliche Einheiten oder Konzepte und können zusätzlich zur 
grundlegenden strukturellen Definition der Suchanfrage mit beliebigen weiteren 
Constraints versehen werden, die dann zum Abgleich mit Inhalten entsprechen- 
der Kandidaten herangezogen werden. Für Suchen auf Syntaxbäumen sind 
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beispielsweise Wortart, morphologische Features oder Dependenz-Relation 
einzelne lokale Constraints. Für diese lokalen Constraints unterstützt ICARUS 
ein breites Spektrum an Operationen, unter anderem (Un-)Gleichheit, reguläre 
Ausdrücke und numerische Vergleiche. Speziell für quantitative Analysen und 
den Fall, ohne spezifische Kenntnisse der benutzten Annotationsschemata 
Korpusanfragen erstellen zu wollen, bietet ICARUS die Möglichkeit, für beliebige 
Constraints Instanzen und deren Häufigkeit ermitteln zu lassen und diese 
entweder in Frequenzlisten oder -Tabellen auszugeben. Mit einem gegebenen 
Korpus oder Annotationsschema wenig vertraute Anwenderinnen und Anwen- 
der können sich somit sukzessive detailliertere Informationen liefern lassen. 

Die lokalen Constraints lassen sich dazu verwenden, linguistische Hypo- 
thesen und Theorien zu überprüfen, sie können aber auch für einen explora- 
tiveren Suchansatz benutzt werden, bei dem Forschende von einer beispiel- 
haften Einzelinstanz ausgehend Muster in den Daten explorieren. Dies wird im 
folgenden Abschnitt dargestellt. 


3.2 Beispielbasierte Suche mit ICARUS 


Mit ICARUS können Korpora auch ohne detailliertes Wissen über die verwen- 
deten Annotationsschemata zu durchsucht werden. Beispielbasierte Suche 
ermöglicht es Anwenderinnen und Andwendern, gezielt nach Realisierungen 
bestimmter Phänomene zu suchen, ohne deren Formalisierung in der jeweiligen 
Ressource zu kennen. Dies ist durch die Verwendung von Beispiel-Suchanfragen, 
also Suchanfragen, die eine konkrete Instanz der zu untersuchenden Struktur 
oder Realisierung beschreiben, möglich. Auf textueller Ebene kann durch Rela- 
xierung der Suchanfrage vom Einzelbeispiel abstrahiert werden, auf der Ebene 
von gesprochener Sprache ist zusätzlich eine Generalisierung durch die Ver- 
wendung numerischer Ähnlichkeitsmaße möglich. 

Im Folgenden werden beide Mechanismen anhand einer konkreten Korpus- 
abfrage beschrieben. 


Auf der Suche nach Bürgermeistern und Kanzlerinnen 

Nehmen wir an, es soll die prosodische Realisierung von engen Appositionen 
(z. B. Lanwer, im Druck) untersucht werden. Hierfür wollen wir einen Überblick 
über die Realisierungen bekommen, ggf. ein bestimmtes oder mehrere bestimm- 
te Betonungsmuster finden und ähnliche Beispiele im Korpus identifizieren. Als 
Beispiel-Korpus verwenden wir 1.624 Sätze aus DIRNDL (Eckart, Riester & 
Schweitzer 2012). Um herauszufinden, wie Appositionen im Korpus repräsentiert 
sind, kann zuerst ein Parse eines Beispielsatzes generiert werden. Beispielsweise 
liefert uns das Parsen des Satzes „Bürgermeister Meier lacht“ die gewünschte 
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Abb. 6.3: Grafisches Interface für Korpusanfragen in ICARUS. Zu sehen ist eine Suchanfrage 
für enge Appositionen in grafischer (oberer Ausschnitt) und textueller Form (unteres Textfeld). 
In der Dependenzrelation Noun Kernel (NK) ist das normale Nomen (NN) der Kopf und 

der Eigenname (NE) der Dependent. Die Knoten sind direkt adjazent, haben also die Distanz 1. 


Repräsentation. Diese Repräsentation kann nun als Referenz für die instanzba- 
sierte Suche verwendet werden. Um ausgehend von dieser Referenz ähnliche 
Instanzen im Korpus zu finden, wird die Suchanfrage relaxiert — es wird von der 
konkreten Instanz abstrahiert. Dies kann zum Beispiel darüber erreicht werden, 
dass Information zu Lemmata und Wortformen verworfen und nur nach den 
entsprechenden Wortartenannotationen in der verwendeten syntaktischen 
Strutktur gesucht wird. 

Abbildung 6.3 zeigt die relaxierte Suchanfrage für zwei adjazente Knoten 
(Distance = 1), die die Wortarten NN (normales Nomen) und NE (Eigenname) 
haben, wobei NN der Kopf und NE der Dependent einer Dependenzrelation NK 
(Noun Kernel) ist. Diese Konstruktion ist im Beispielkorpus 354-mal vorhan- 
den, zum Beispiel Außenminister Mottaki, Bundesaußenminister Steinmeier, 
Bundeskanzlerin Merkel, aber auch in Form von Seewetterdienst Hamburg. 

Abbildung 6.4 zeigt die Ergebnisliste mit einer Detail-Ansicht der proso- 
dischen Realisierung. 

In ICARUS ist es nun möglich, die Realisierung dieser Beispiele anzuhören, 
sowie die PalntE Repräsentation in Form der Funktionskurve visuell zu inspi- 
zieren und schließlich zu extrahieren. Für die Exploration der gefundenen Tref- 
fer steht eine Vielzahl von vordefinierten Features zur Verfügung, mit der die 
Beispiele feiner klassifiziert werden können. Beispielsweise kann mithilfe des 
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U u Farin urn 
1_Aemprogramm @) = Bund Mie nme c? Ranme Ges einen angemessenen Schent 
2_Bertimer Erki (0) = im Mittelpunkt steht eine von der Ratspräsidentin aziera Merkel, vorbereitete ` Berimer Erklärung 
2 Deriner Erki (0) - im Minelpunkt siert eine von der Ratiprasidensin , Bundeskanzierin Merkel , vorbereitete ” Bertiner Erklanung 
2 Berner Erki (1) ~ Frau Merkel und die Prasigenten des Europäischen Parlaments und der Kommission , Pöttering und Barroso , wollen den Text Uber Dele und Zukunft der Eu unserzeichnen 
3 EU-Jugendgipf (11 - Dazu wollen sie heute parallel zur ~ Berliner Erklärung ` einen eigenen Text verfassen 
4_Arpentimen M (01 - Der argentinische Präsichent Kirchner hat der Justiz seines Landes vorgeworfen . die Strafverfolgung von Menschenrechtsverietzungen aus der ZeR Ger Mitärdiktatur zu sabotieren 
a KS A 
S_wetter Q- De 1 Hamburg telt mit deutsche Nordseekuste und destsche Ostseeküste Jeweils Nordost bis Ost $ bis 6 , Böen 7 
9 Aemprogramm Q) n er Morakı , sen Land werde an dem Atomprogramm festhaiten 
9_AMemprogramm (41: Fundessulenmisiey Steinmeier sprach von einem angemessenen Schemt 
b) Bundesaußenminister 
Bun des auß en mi nis ter 
150 150 150 150 150 150 150 
110 110 110 110 110 110 110 
70 70 70 70 70 70 70 
4 
bun de:z aus En mi nis t6 
Steinmeier nannte dies 
Stein ei er na te dies 
0 150 150 150 15 
Lt 110 110 11€ 110 110 
0 0 70 70 7 7 
Stalin mal 6 | nan t dis 


Abb. 6.4: Resultatsliste für enge Appositionen. (a) zeigt die Trefferliste. Die Treffer sind farbig 
markiert; die tonale Realisierung der Treffer wird in einer Voransicht dargestellt, die anhand 
der PalntE-Parameter generiert wird. (b) zeigt die detaillierte Darstellung der PalntE-Parameter 
eines Treffers. 


Relation = NK ze False true 


false 253 68 
Pos = NN Pos = NE Pare T 
Word Property(tonal_prominence) <*> | |Word Propertyitonal_prominence) <*> true 21 12 
a) Suchanfrage mit Grouping Operatoren b) Ergebnisübersicht 


Abb. 6.5: Exploration der tonalen Realisierung von engen Appositionen. Das Feature 
„tonal prominence“ zeigt an, ob auf der betonten Silbe eines Wortes ein Gipfel mit 
einem Ausschlag von mindestens 50Hz realisiert wurde. 


auf Wortebene operierenden Features „tonal prominence“ ein bestimmter Hertz- 
Wert definiert werden, der eine Mindesthöhe des lokalen Gipfels verlangt - 
somit können Grundfrequenzverläufe gefunden werden, die auf tonaler Ebene 
prominent markiert sind. Mittels eines Grouping Operators in der Suche kann 
eine Übersicht generiert werden, die zusammenfasst, welche Beispiele auf bei- 
den Gliedern, auf einem oder auf keinem Glied der Apposition tonal prominent 
sind (vgl. Abb. 6.5). 

Ebenfalls ist es möglich, auf Basis der PalntE-Parameter definierte Gipfel- 
Formen zu finden — beispielsweise steigende oder fallenden Konturen. Darüber 
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SteinmeierAkzent o v 
A, 8.28 0.00 40.00 
140 5 A, 4 
IEN 2 9.56 0.00 40.00 
/ N 
/ B 0.80 3.00 3.00 
37 Ne 
BC, [5149 0.00 150.00 
60 
C 53.67 0.00 150.00 
D 137.60 50.00 200.00 
- y 360 0.00 10.00 


Label Curve Compact Description A, Ay 8 c [9 5 


rierakzent| A 8.28 9.56 0.8 $1.49 53.67 137.6 


a) Speicherfunktion für die Realisierung von Steinmeier 


Relation = NK 
D =] 


~ 
Pos = NN PalntE Angle($SteinmeierAkzent) < 10.0 
Pos = NE 


b) Suchanfrage nach Kosinus-Distanz c) Ergebnisvivualisierung 


Abb. 6.6: Ähnlichkeitssuche. Die tonale Realisierung von „Steinmeier“ dient als Referenz. In 
der illustrierten Suchanfrage wurde zur Berechnung der Kosinus-Distanz der PalntE-Parameter d, 
also die absolute Höhe des Gipfels, außer Acht gelassen, um einen Effekt von verschiedenen 
Stimmhöhen unterschiedlicher Sprecher auf die Berechnung der Distanzen zu vermeiden. 
Die Ergebnisse können gemeinsam mit der Referenzkontur angezeigt werden. 


hinaus können verschiedene numerische Ähnlichkeitsmaße (Euklidische Distanz 
und Kosinus-Ähnlichkeit) angewandt werden, um von einer gefundenen In- 
stanz wiederum zu abstrahieren, dieses Mal auf tonaler Ebene. Zum Beispiel 
ist der zweite Treffer (Bundesaußenminister Steinmeier) mit einem prägnanten 
Satzakzent markiert, dessen Realisierung wir nun als Prototyp für weitere 
Suchanfragen verwenden können. Die PalntE-Parametersettings für diese Rea- 
lisierung können gespeichert und direkt für eine feiner eingeschränkte Suche 
verwendet werden. Zur Exploration ähnlicher Realisierungen kann zum Bei- 
spiel als Ähnlichkeitsmaß die Euklidische Distanz oder die Kosinus-Distanz 
dieser Realisierung zu den anderen Übereinstimmungen im Korpus berechnet 
werden. Um einen Überblick über den Wertebereich der Distanzen zu unserem 
Zielakzent im Korpus zu bekommen, kann der Grouping-Operator und die Sor- 
tierungsfunktion verwendet werden. So können alle Suchtreffer nach Distanz 
zum Zielakzent sortiert und direkt visuell und auditorisch inspiziert werden. 
Im Anschluss kann ein Schwellenwert gesetzt werden, der nur Treffer bis zu 
einer gewissen Distanz anzeigen lässt. Abbildung 6.6 illustriert diese Vor- 
gehensweise. 
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Es ist zu beachten, dass bisher in ICARUS noch keine Normalisierung 
der Parameterbereiche stattfindet, weswegen Parameter mit größeren Werte- 
bereichen einen größeren Einfluss auf die Berechnung von akustisch-numerisch 
definierter Ähnlichkeit haben. Dies lässt sich momentan in gewisser Weise 
damit umgehen, dass das Ähnlichkeitsmaß nur für ein Subset der PalntE- 
Parameter berechnet wird. Um alle Parameter mit einbeziehen zu können, 
kann eine Normalisierung der Parameterwerte, z.B. durch Z-Transformation, 
der Berechnung der Ähnlichkeit voraus gehen. 

Um die für die jeweilige Forschungsfrage relevanten Korpus-Belege, die 
mithilfe der beispielbasierten Suche gefunden wurden, zu extrahieren, stellt 
ICARUS eine Exportfunktion bereit, deren tabellarisches Format zum Beispiel 
von gängigen statistischen Programmen wie R (R Core Team 2016) problemlos 
weiterverarbeitet werden kann. 


4 Komplexe Abläufe reproduzierbar machen: 
Prozessmetadaten 


Die Diskussion in den beiden letzten Abschnitten hat gezeigt, dass gerade 
ebenenübergreifende Korpusstudien und Studien, die heterogene Textsamm- 
lungen betreffen, davon profitieren können, dass nicht allein existierende 
Standardwerkzeuge eingesetzt werden, sondern dass Werkzeugen in geeig- 
neter Weise kombiniert und angepasst werden. 

Ein oft unterschätzter Aspekt bei der Kuration und Annotation von Res- 
sourcen sowie bei Studien, die auf diesen Daten beruhen, ist die Reproduzier- 
barkeit der Abläufe, in denen mehrere Komponenten eine Rolle spielen. Ergeb- 
nisse können nur reproduziert und Studien auf mehreren Datensätzen nur 
dann verglichen werden, wenn die Schritte, die zu den Ergebnissen geführt 
haben, bekannt sind. Elming et al. (2013) zeigen anschaulich, wie ein Schritt 
in der Prozesskette, der nicht spezifisch für die Aufgabenstellung ist, Einfluss 
auf die Qualität der Ergebnisse haben kann: Es werden fünf verschiedene Auf- 
gaben betrachtet, (i) die automatische Erkennung einer Negation und ihres 
Skopus, (ii) die Annotation semantischer Rollen, (iii) die maschinelle Uber- 
setzung, (iv) die Satzkompression und (v) die Perspektivenklassifikation. Die 
Ausgangsdaten liegen mit einer Syntaxannotation in Form von Konstituenten- 
bäumen vor und in der Prozesskette für jede Aufgabe werden die Konstituenten- 
baume in Dependenzstrukturen umgewandelt. Diese Umwandlung ist im Ver- 
hältnis zur jeweiligen Aufgabe nur ein kleiner Schritt, so dass ein großes Risiko 
besteht, dass dieser nicht in allen Einzelheiten dokumentiert wird (insbeson- 
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dere, wenn sich die eigentlich relevanten Ergebnisse auf weiterführende Auf- 
gaben beziehen). Für eine Replizierbarkeit ist es jedoch außerordentlich wichtig, 
dass gerade auch die vermeintlich offensichtlichen Schritte exakt dokumentiert 
werden. 

Elming et al. (2013) verwenden für jede Aufgabe vier verschiedene Konver- 
tierungsprogramme, um die Umwandlung von Konstituenten in Dependenz- 
strukturen durchzuführen und zeigen damit, dass die Entscheidung, welche 
Konvertierung benutzt wurde, Einfluss auf die Ergebnisse der Studie hat. Um 
also die Ergebnisse richtig interpretieren zu können, ist es nicht nur notwendig 
zu wissen, dass die Konvertierung stattgefunden hat, sondern auch mit wel- 
chem Konverter. 

Führt man diesen Gedanken weiter, bedeutet das aber auch, dass zur Repro- 
duktion des Ablaufs auf neuen Datensätzen noch mehr Details relevant sein 
können. Zwischen Versionen von Programmen können Unterschiede bestehen, 
Programme können in verschiedenen Modi ausgeführt werden und greift das 
Programm auf weitere Wissensquellen, wie zum Beispiel Lexika, zu, spielt auch 
die verwendete Version des Lexikons eine Rolle. Bei statististischen Modellen, 
die auf unterschiedlichen Korpora trainiert werden können, sollte wenigstens 
über die Parameter-Datei — idealerweise über die exakte Version des annotier- 
ten Korpus und die Meta-Parameter des Trainingsprozesses Rechenschaft ab- 
gelegt werden. 

Relevante Prozessketten bestehen jedoch nicht nur aus automatischen 
Verarbeitungsschritten sondern können auch manuelle Annotationen oder 
explizite Entscheidungen einschließen. Zum Beispiel spielt es eine Rolle bei 
der Erstellung eines Webkorpus, ob doppelte Vorkommen von Texten entfernt 
werden oder nicht. Gerade bei scheinbar offensichtlichen Zwischenschritten, 
die möglicherweise der üblichen Praxis folgen, besteht die Gefahr, dass sie 
nicht dokumentiert werden. 

Die notwendigen Details zu dokumentieren bedeutet für die Forschenden 
zumeist einen nicht unerheblichen Mehraufwand neben der eigentlichen 
Forschungsarbeit, insbesondere da hierfür häufig noch keine dedizierten 
Werkzeuge zur Verfügung stehen. Infrastrukturen können das Sammeln der 
entsprechenden Prozessmetadaten und damit die strukturierte Dokumenta- 
tion der Abläufe unterstützen, was nicht nur die Nachhaltigkeit der Ergebnis- 
se und die Wiederverwendbarkeit der Ressourcen erhöht, sondern auch be- 
reits im Forschungsprozess hilft, die Arbeitsschritte einzuordnen und ggf. 
auszutauschen. 

Lösungsansätze aus anderen Disziplinen wie der Software-Entwicklung 
existieren bereits, sind aber nicht ohne weiteres zur Anwendung in den 
Sprachwissenschaften übertragbar. Beispielsweise kommen dort Versionie- 
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rungswerkzeuge wie Git,!? SVN? oder Ähnliche zum Einsatz. Diese sind zwar 
in der Lage, schrittweise Anderungen der Inhalte von versionierten Dateien 
ausreichend detailliert zu verfolgen, allerdings überfordern sie zum einen An- 
wenderinnen und Anwender häufig durch ihre Komplexität oder zu viele Frei- 
heiten, zum anderen bleibt die Problematik einer nachnutzbaren Prozess- 
beschreibung weiterhin ungelöst. Plattformen wie Kepler?! und Galaxy,” 
unterstützen die direkte (Wieder)Ausführung von Workflows aus automa- 
tischen Schritten und haben meist einen Fokus auf naturwissenschaftlichen 
Anwendungen, z.B. in der Genetik. Typische Abläufe der Korpuslinguistik und 
ihrer Anwendung in den textverarbeitenden Geisteswissenschaften umfassen 
neben voll-automatischen Werkzeugketten auch semi-automatische Annota- 
tionen und manuelle Schritte, z.B. zur detaillierteren Bewertung und Auswahl 
von automatisch extrahierten Exemplaren. 

Die Problematik wird im Kontext des koordinierten Forschungsdaten- 
managements in Baden-Württemberg (bwFDM) mit dem Projekt RePlayDH” 
unmittelbar angegangen, mit dem Ziel, exemplarische Lösungsansätze zur 
Workflow-Dokumentation in den textverarbeitenden Geisteswissenschaften 
und der Computerlinguistik zu erarbeiten. Dabei soll die Dokumentation von 
Zwischenständen und einzelnen Arbeitsschritten bereits während des wissen- 
schaftlichen Arbeitsprozesses erfolgen, mit der Option zur Archivierung, Ver- 
öffentlichung und Nachnutzung von Forschungsdaten. 

Der gesamte Arbeitsablauf wird als Sammlung einzelner, getrennt auf- 
genommener Schritten modelliert, welche bestehende Ressourcen verändern/ 
löschen oder neue hinzufügen. Im Hintergrund nutzt RePlay-DH hierbei die 
Funktionalität von Git, Übergänge zwischen Zuständen der Ressourcen mit 
FreitextBeschreibungen zu versehen, um formalisierte Prozessmetadaten zu 
hinterlegen. Inhalt dieser Prozessmetadaten sind Informationen über betroffe- 
ne Ressourcen (Eingabe- und Ergebnisdateien), beteiligte Personen (Annotie- 
rende, Experiment-Beteiligte etc.), verwendete Werkzeuge (Parser, Tokenizer 
etc.) und deren Parameter/Konfigurationen, sowie eine freie textuelle Beschrei- 
bung des Arbeitsschrittes an sich. Bei der Angabe von Ressourcen kann unter 
anderem auf die breite Masse bereits verfügbarer Objekt-Metadaten aus eta- 


19 https://git-scm.com/ (letzter Zugriff: 16.11. 2017). 

20 https://subversion.apache.org/ (letzter Zugriff: 16.11. 2017). 

21 https://kepler-project.org/ (letzter Zugriff: 16.11. 2017). 

22 https://galaxyproject.org/ (letzter Zugriff: 16. 11. 2017). 

23 Realisierung einer Plattform und begleitender Dienste zum Forschungsdatenmanagement 
für die Fachcommunity Digital Humanities 
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Abb. 6.7: Workflow-Visualisierung mithilfe der D3.js JavaScript Bibliothek. Es werden nur aus- 
gewählte Arbeitsschritte visualisiert, die Dokumentation erfasst weitere Schritte und Details 
der verwendeten Werkzeuge. 


blierten Repositorien (CLARIN Virtual Language Observatory,” TextGrid” etc.) 
zurückgegriffen und die entsprechenden Einträge in den Prozessmetadaten mit 
persistenten Links wie DOI oder PID?’ versehen werden. 

Ein besonderer Fokus des Projekts liegt darauf, die Erhebung der Prozess- 
metadaten so nicht-invasiv wie möglich zu gestalten, so dass sich diese ohne 
große Umgewöhnung oder Einarbeitung in bestehende Arbeitsabläufe integrie- 
ren lässt. Die im Rahmen von RePlay-DH entwickelte Software assistiert den 
Forschenden zu diesem Zweck bei der Erstellung oder Verlinkung von Prozess- 
metadaten und bietet umfangreiche Funktionen zur Visualisierung und Navi- 
gation des aktiven Workflows. Mit der Option, Metadaten zu einem Arbeits- 
prozess in einem zur Archivierung und Veröffentlichung geeigneten Format 
exportieren zu können, wird somit direkt die Nachnutzbarkeit von (Zwischen-) 
Ergebnissen ermöglicht, ohne dabei den sonst für Dokumentationen anfallen- 
den und häufig unverhältnismäßig hohen Mehraufwand zu erzwingen. 

Basierend auf ähnlichen Datenstrukturen werden Prozessmetadaten bei 
der Erstellung des in Abschnitt 2 beschriebenen Silberstandardkorpus fest- 
gehalten. Abbildung 6.7 zeigt die Visualisierung eines Workflowausschnitts bei 


24 https://vlo.clarin.eu,\letzter\Zugriff:\16.\protect\kern+.1667em\relax11.\protect\ 
kern+.1667em\relax2017. 

25 https://textgrid.de/,\letzter\Zugriff:\16.\protect\kern+.1667em\relax11.\protect\ 
kern+.1667em\relax2017. 

26 Digitaler Objekt Identifikator https://www.doi.org/,\letzter\Zugriff:\16.\protect\ 
kern+.1667em\relax11.\protect\kern+.1667em\relax2017. 

27 Persistenter Identifikator https://www.clarin.eu/content/persistent-identifiers, \letzter\ 
Zugriff:\16.\protect\kern+.1667em\relax11.\protect\kern+.1667em\relax2017. 
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dem ein Beispieldokument sowohl automatisch verarbeitet als auch manuell 
annotiert wird. Zunächst werden aus den, im PDF-Format vorliegenden, Inter- 
views, Dateien im txt-Format erzeugt. Dann werden die Positionsanker zwi- 
schen den Zeichen verortet und pro Zeile zusammengefasst (Dateiendungen 
.chars und .lines). Danach werden Annotationen zur Dokumentstruktur erstellt 
(Kopfzeilen des Dokuments, welche Textbereiche sind die Beiträge der Inter- 
viewenden, welche die der Gäste; Dateiendung .docstruct). Für eine manuelle 
Wortartenannotation wird zunächst mithilfe der Audiodatei (Dateiendung 
.mp3) eine modifizierte Textversion erstellt (Dateiendung .txt-mod), bevor ver- 
schiedene Textteile (.spoken-part, .txt-speakers) exportiert und automatisch 
(Tokenisierung; .tokenized, .tokenized-sent) und manuell (Wortartenannota- 
tion; .tokenized.pos.xml) verarbeitet werden. 


5 Abschließende Betrachtungen 


Dieser Beitrag führte mehrere Szenarien aus der Arbeit mit digital aufbereiteten 
Sprach- und Textkorpora an, die auf technisch-infrastruktureller Ebene ein ver- 
hältnismäßig komplexes Zusammenspiel von Annotationskomponenten und 
Werkzeugen für die Abfrage und Exploration beinhalten: Verschiedene Ebenen 
der linguistischen Beschreibung müssen zueinander in Beziehung gesetzt wer- 
den — gerade wenn es um ebenenübergreifende Phänomene geht, etwa an der 
Prosodie/Grammatik-Schnittstelle. Bei automatischen Annotationsverfahren - 
gerade wenn sie jenseits der Standard-Zeitungskorpora eingesetzt werden — 
stellt sich die Frage der Zuverlässigkeit der Vorhersagen. Das Zusammenführen 
von unabhängig erzielten (Teil-)Analysen eröffnet andererseits Chancen für 
einen Abgleich, der für die Konsistenzüberprüfung ausgenutzt werden kann. 
Bei einem reflektierten Vorgehen kann die Kombination automatischer Annota- 
tionsverfahren den Zugang zu einem Vielfachen des Korpusumfangs erschlie- 
ßen, der mit herkömmlichen Techniken untersucht werden kann - gerade für 
mündliche Korpora, für die häufig nur kleine Ausschnitte mit manueller Anno- 
tation erschlossen sind. 

Mit der Ausführung der Szenarien sollte verdeutlich werden, dass - sicher- 
lich zunächst eher unerwartet — Fragen zur Gestaltung der Werkzeuginfra- 
struktur von direkter Relevanz für die germanistischen Sprachwissenschaft 
sein können — auch über die rein technische Motivation hinaus, dass eine ge- 
eignete Funktionalität für korpuslinguistische Forschungsansätze vorgehalten 
werden sollte. 
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Auf dem Weg zu einer Infrastruktur fiir die verteilte interaktive 
evolutionäre Verarbeitung natürlicher Sprache 


Abstract: In diesem Beitrag untersuchen wir Entwicklungstendenzen von Infra- 
strukturen in den Digitalen Geisteswissenschaften. Wir argumentieren, dass 
infolge (1) der Verfügbarkeit von immer mehr Daten über sozial-semiotische 
Netzwerke, (2) der Methodeninflation in geisteswissenschaftlichen Disziplinen, 
(3) der zunehmend hybriden Arbeitsteilung zwischen Mensch und Maschine 
und (4) der explosionsartigen Vermehrung künstlicher Texte ein erheblicher 
Anpassungsdruck auf die Weiterentwicklung solcher Infrastrukturen entstan- 
den ist. In diesem Zusammenhang beschreiben wir drei Informationssysteme, 
die sich unter anderem durch die Interaktionsmöglichkeiten unterscheiden, 
die sie ihren Nutzern bieten, um solchen Herausforderungen zu begegnen. 
Dabei skizzieren wir mit VienNA eine neuartige Architektur solcher Systeme, 
welche aufgrund ihrer Flexibilität die Möglichkeit bieten könnte, letztere 
Herausforderungen zu bewältigen. 


Keywords: Architekturen, Forschungswerkzeuge, Interoperabilität, Texttechno- 
logie 
1 Einleitung 


Infrastrukturen für die Digital Humanities (DH) stehen vor Herausforderungen, 
die in den kommenden Jahren einen erheblichen Anpassungsdruck auf deren 
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Ausgestaltung ausiiben diirften. Diese Erwartung steht in Zusammenhang mit 
vier Entwicklungen, die nahezu alle sprachbezogenen Wissenschaften betreffen: 


1. 


Online-Kommunikation: Andernorts wurde bereits vielfach betont, dass 
Lesen und Schreiben zunehmend online geschehen, immer 6fter auch so, 
dass die Taktrate ihrer Verzahnung sich der miindlichen Kommunikation 
annähert (Lobin 2014; Beißwenger & Storrer 2008). Von dieser Tendenz 
sind genuine Webgenres (Mehler, Sharoff & Santini 2010) ebenso betroffen 
wie webbasierte Auftritte von zuvor klassischen Printmedien (Lobin 2014). 
Diese bereits weit vorangeschrittene Entwicklung legt es nahe, in vernetz- 
ten, webbasierten, kollaborativ erstellten, diskutierten und oftmals fort- 
während überarbeiteten sprachlichen Aggregaten erste Adressen fiir eine 
massive Erweiterung oder gar Verschiebung! des Objektbegriffs textbezo- 
gener Wissenschaften zu sehen. 

Sozial-semiotische Vernetzung: Das Paradebeispiel der Wikipedia (Stegbauer 
2009) eröffnet in diesem Zusammenhang den Blick auf eine Datenstruktur, 
die ein ganzes System nicht nur sprachlicher Ordnungsparameter beobacht- 
bar macht. Dies betrifft neben den Entstehungsgeschichten von Schreib- 
prozessen insbesondere jene Agenten bzw. deren algorithmischen Identitäten 
(Cheney-Lippold 2017), die an letzteren, ihrerseits zunehmend vernetzten 
Prozessen ursächlich beteiligt sind. Diese Beobachtung legt den Schluss 
nahe, dass die unter Punkt (1) diagnostizierte Gegenstandserweiterung 
nicht allein auf die Vernetzung intertextueller bzw. -medialer Aggregate 
bezogen ist, sondern die wechselseitige Konstitution von Sprechergemein- 
schaften, Kulturen und sprachlichen Subsystemen (vgl. Everett 2013) ein- 
bezieht. Diesen wohl nur im Methodenverbund von Soziologie, Psycholo- 
gie und Informatik zu fassenden Gegenstand adressieren wir mit dem 
Begriff des sozialsemiotischen Mehrebenennetzwerks (Mehler et al. 2018) 
und wagen die Prognose, dass solche Netzwerke ins Zentrum informations- 
wissenschaftlicher Arbeit rücken werden. 

Methodenzuwachs: Eine dritte Entwicklung geht von der Informatik aus, 
betrifft aufgrund ihres Erfolges jedoch alle Bereiche, die um die Teilauto- 
matisierung ihrer Forschungstätigkeit bemüht sind. Es geht um die Fort- 
schritte im Bereich neuronaler Netzwerke, um das so genannte Deep 
Learning also, dem bahnbrechende Leistungen bei der automatischen Seg- 
mentierung und Klassifikation zu verdanken sind. Kosko (2017: 497) sieht 
in der gestiegenen Rechenleistung eine wesentliche Ursache für diesen 
Qualitätssprung, während Hearst (2017: 339) den Zuwachs an verfügbaren 


1 In dem Sinne, dass die Akzeleration der internetbasierten Kommunikation zu einer stetigen 
Anpassung der informationswissenschaftlichen Aufmerksamkeit führen wird. 
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Daten und Speicherkapazitäten als weitere Ursachen nennt. Dieser Lesart 
zufolge erleben wir negativ formuliert keinen algorithmischen Qualitats- 
sprung, sondern werden bloß Nutznießer eines Ressourcenzuwachses. 
Positiv formuliert jedoch lernen Algorithmen aufgrund dieser Entwicklung 
immer schneller immer komplexere Muster (Kosko 2017). Dessen ungeach- 
tet diirften ihre Auswirkungen enorm sein, und zwar bezogen auf den 
Zuwachs an verfügbaren Werkzeugen — ob nun in Form von Webservices 
oder Komponenten von Entwicklungsumgebungen (z.B. Weka) bzw. 
Programmiersprachen (z.B. R) -, die immer mehr Aufgaben der auto- 
matischen Analyse und Annotation sprachlicher Daten übernehmen. 
Es entwickelt sich sozusagen ein „Überangebot“ leicht handhabbarer 
Werkzeuge, die die Digitalisierung der jeweiligen Disziplin zu forcieren 
versprechen, vermeintlich ohne informatics literacy aufseiten ihrer An- 
wender einzufordern. Methodologisch gesprochen entstehen auf diese 
Weise Blackboxes, und zwar vergleichbar jenen, die bereits für das Data 
Mining im Allgemeinen diagnostiziert wurden (Cheney-Lippold 2017). 
Während also die unter Punkt (1) und (2) adressierten Entwicklungen einen 
Forschungsgegenstands-bezogenen Anpassungsdruck erzeugen, geht es hier 
um die Auswirkungen eines geradezu inflationären Zuwachses an digitalen 
Methoden auch solcher Disziplinen, welche traditionell der Informatik 
fernstehen. Gewährleistung von Reproduzierbarkeit (Peng 2011) und algo- 
rithmischer Transparenz werden daher zu Schlüsselfunktionen zukünftiger 
Infrastrukturen. 

4. Hybridisierung: Für sich genommen mögen letztere Entwicklungen bereits 
herausfordernd sein. Angesichts einer parallelen Entwicklung, die auf un- 
sere Arbeits- und Kommunikationskultur als Ganzes gerichtet ist, gewin- 
nen sie jedoch erheblich an Bedeutung. Dies betrifft zunächst die fort- 
schreitende Hybridisierung der Arbeitsteilung zwischen menschlichen 
und künstlichen Agenten im Bereich der allgemeinen Zeichenverarbeitung. 
Unter textanalytischer Perspektive geht es dabei um die Methodenseite 
textorientierter Disziplinen. Begleitet wird diese Entwicklung von einer 
geradezu inflationären? Erzeugung künstlicher Texte, deren Autoren in 
erster Linie vollautomatischen, unabhängig von der zugrundeliegenden 
Software-Plattform agierenden Software-Agenten? bzw. Software Robots 
(Ferrara et al. 2016: 96) oder schlicht Bots (Geiger 2014: 347) entsprechen 
und also nur mittelbar jenen Personen zuzurechnen sind, welche die zu- 
grundeliegenden Algorithmen entworfen bzw. implementiert haben. Die 


2 Zu dieser Einschätzung siehe die Beispiele unten. 
3 Geiger (2014) spricht von so genanntem „bespoke code“. 
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hiermit verbundene generative Perspektive betrifft nun die Objektseite 
textorientierter Disziplinen. Erstere Entwicklung reicht vom Paradigma des 
Interactive Machine Learning (Patel et al. 2010) bzw. des Human-in-the-loop 
(Hoque & Carenini 2015), bei dem Maschinen den Lernprozess implemen- 
tieren, während Menschen als Innovatoren agieren (siehe Tab. 7.1), bis hin 
zum Human Computation (von Ahn 2008), bei dem Maschinen die Aufgabe 
der rudimentären Arbeitsorganisation übernehmen (Kosorukoff 2001) und 
das maschinelle Lernen (wenn überhaupt) nachgeordnet ist. Letztere Ent- 
wicklung reicht von Social Bots (mit dem Spezialfall der Conversational 
Companions (Wilks et al. 2010) oder Chatbots)* über Wiki(pedia) Bots? 
(Geiger 2014), News Bots® und Influence Bots (Subrahmanian et al. 2016) 
bis hin zu Spambots (Cresci et al. 2017).” Am Beispiel von Wikipedia 
erläutern Geiger & Ribes (2010), inwiefern Bots gar als Agenten eines sozio- 
technischen Netzwerks aufzufassen sind, das eine Art der verteilten Kogni- 
tion (Hollan, Hutchins & Kirsh 2000) implementiert, die unter anderem auf 
die Herausbildung von Qualitätsstandards zielt. 


Die eigentliche Bedeutung letzterer Entwicklung betrifft die Erwartung, zu- 
künftig von künstlichen Texten geradezu überschwemmt zu werden, was meh- 
rere Fragen aufwirft: 

— Wie nahe ist der Zeitpunkt, ab dem die Wahrscheinlichkeit, einen Text von 
einem artifiziellen Autor zu lesen, höher sein wird, als einen Text von einem 
Menschen? 

- In welchem Kommunikationsbereich (etwa der Nachrichtenkommunika- 
tion (Ferrara et al. 2016; Lokot & Diakopoulos 2016), der Freizeitkommuni- 
kation (Ferrara et al. 2016), der Wissenskommunikation (Iosub et al. 2014) 
oder der Erinnerungskultur (Ferron & Massa 2014)) wird dieser „break- 
even point“ zuerst erreicht? 


4 Bot-Software also, die mit menschlichen Agenten in Online Sozialen Netzwerken (OSN) „in- 
teragieren“, indem sie deren Verhalten simulieren - ob nun zu deren Schaden oder Nutzen 
(Boshmaf et al. 2012; Abokhodair, Yoo & McDonald 2015; Freitas et al. 2016; Ferrara et al. 
2016). Zu dem zugrundeliegenden Interaktionskonzept siehe kritisch Mehler (2010). 

5 Die überwiegend Editionsarbeiten und Vandalismusbekämpfung adressieren (Halfaker & 
Riedl 2012), teils aber auch ganze Artikel (etwa mittels Übersetzung) erzeugen - siehe unten. 
6 Die beispielsweise in Twitter trending topics ebenso wie Nischenthemen adressieren können, 
unter anderem mittels Reproduktion, Aggregation oder datenbezogener Ergänzung (Lokot & 
Diakopoulos 2016; Steiner 2014). Dabei zeigt sich eine Art Skalenfreiheit, wonach sehr wenige 
Bots einen sehr großen Anteil an gesendeten Tweets bzw. Links produzieren (Larsson & Hallvard 
2015). 

7 Bots, die rein repetitive Aufgaben der Organisation von Informationssystemen übernehmen, 
zählen wir ebenso wenig hierzu wie Retweet Bots (Gilani et al. 2016). 
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Tab. 7.1: Kombinationsmöglichkeiten von menschlichen, maschinellen oder gemischten 
selektierenden oder innovierenden Agenten. Die innere Mensch-Maschine-Matrix 
(Szenario 1-4) stammt von Kosorukoff (Kosorukoff 2001). 


Selektierender Agent 
Maschine Mensch Gemischt 
Innovierender Maschine Szenario 1 Szenario 2 Szenario 3 
Agent Distributed Genetic Interactive Genetic 
Algorithm (DGA) Algorithm (IGA) 
Mensch Szenario 4 Szenario 5 Szenario 6 
Computer-Aided Human-based Genetic 
Design (CAD) Algorithm (HbGA) 
Gemischt Szenario 7 Szenario 8 Szenario 9 
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Abb. 7.1: Von Bots autorisierte Anteile an den 13 größten (der Größe nach von links nach 
rechts geordneten) Wikipedias mit mindestens 1.000.000 Artikeln. Berücksichtigt werden 
nur Beiträge offiziell registrierter Bots. 


— Und was bedeutet diese Entwicklung für die Arbeitsteilung unter den text- 
orientierten Disziplinen? Wird die Informatik hier gar zur dominanten Dis- 
ziplin, da sie es ist, die Algorithmen zur Erzeugung und Erkennung text- 
generierender Bots an erster Stelle erforscht? 


Die Wissenskommunikation ist längst in höherem Maße ein Beleg für die mit 
diesen Fragen umkreiste Entwicklung als es angesichts der für sie einschlä- 
gigen Beispiele in Form von Wikipedia und Wiktionary unmittelbar glaub- 
würdig zu sein scheint. Seien hierzu in Abbildung 7.1 alle Wikipedias betrachtet, 
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die über mindestens eine Millionen Artikel verfügen. Offenbar stechen zwei 
Extrembeispiele hervor, und zwar die Wikipedia für Cebuano (nunmehr die 
zweitgrößte Wikipedia) wie auch jene für Waray-Waray. In beiden Fällen liegt 
der Anteil der von Bots autorisierten Texte bzw. Links über 90% - im Falle 
von Cebuano werden nahezu 100 % erreicht, durch eine Sprache also, welche 
eher zu den low-resource languages zählt.® Mit Vietnamesisch und Schwedisch 
sind offenbar weitere „Bot-lastige“ Wikipedias gegeben. Der Anteilswert von 
knapp 60% an Links, den Bots an der schwedischen Wikipedia halten, zeigt 
z.B., dass die Wahrscheinlichkeit, eine solcherart manifestierte, durch einen 
Bot erzeugte Textrelation zu rezipieren, den oben erwähnten Break-even-Point 
bereits überschritten hat. Das bedeutet, dass über intertextuelle Relationen 
vermittelte, kotextuelle Einbettungen, die maßgeblich Einfluss darauf neh- 
men, im Kontext welcher Texte ein gegebener enzyklopädischer Artikel oder 
Textabschnitt rezipiert wird, in solchen Beispielen überwiegend, teils sogar 
ausschließlich maschinell erzeugt sind. Anders formuliert: Was in welchem 
textuellen Kontext rezipiert wird, darüber entscheiden immer häufiger Algo- 
rithmen und nur noch mittelbar deren Entwickler.” Abbildung 7.2 zeigt ergän- 
zend das Beispiel des russischen Wiktionarys, an dem auffällt, dass die mit 
Abstand aktivsten (an der Kreisunterseite lokalisierten) Agenten abermals Bots 
sind. In diesem Wiktionary wird lexikalisches Wissen offenbar in hohem Maße 
durch artifizielle Agenten geformt und vermittelt. 

(1) Die Verfügbarkeit von immer mehr Daten über sozial-semiotische Netz- 
werke, (2) eine Methodeninflation in zuvor rein geisteswissenschaftlichen Dis- 
ziplinen, die sich methodisch der Informatik annähern, wie auch (3) die zuneh- 
mend hybride Arbeitsteilung zwischen Mensch und Maschine und schließlich 
(4) der Anstieg an artifiziellen Zeichenproduktionen bilden Triebfedern für die 
Weiterentwicklung von Infrastrukturen, die eine Reihe von informationswissen- 
schaftlichen Anpassungen bzw. Dynamisierungen nach sich ziehen. Um die 
hiermit verbundenen Diversifikationsmöglichkeiten zu überschauen, knüpfen 
wir an die Systematik von Kosorukoff (2001) an (siehe Tab. 7.1), die wir um 
Varianten erweitern, in denen gemischte (künstliche und menschliche) Agen- 
ten als Innovatoren (Rekombinatoren) bzw. Selektoren im evolutionstheore- 
tischen Sinne agieren. 


8 Letzteres Beispiel ist u.a. dadurch erklärbar, dass ein einzelner, nichtmuttersprachlicher 
Autor (https://ceb.wikipedia.org/wiki/Gumagamit:Lsj) einen Bot namens Lsjbot (https:// 
ceb.wikipedia.org/wiki/Gumagamit:Lsjbot (letzter Zugriff 23.10. 2017) verantwortet, mittels 
dessen er Texte in das Wiki einfügt. 

9 Man könnte in solchen Beispielen einen Anlass für das Wiederbeleben traditioneller Enzyk- 
lopädien erblicken, insofern diese garantieren können, gänzlich von Menschen verfasst zu 
sein. 
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Abb. 7.2: Kollaborationsgraph der 100 aktivsten Agenten des russischen Wiktionarys: 
Knoten denotieren Agenten, Kanten deren Koautorenschaftsbeziehungen. Die Knotengröße 
reflektiert den Aktivitätsgrad eines Autors, wobei Knoten von Bots (blau) umrandet sind. Zu 
den Details der Netzwerk-Berechnung und -Visualisierung, welche auf Brandes et al. (2009) 
basiert, siehe Mehler et al. (2018). 


Gemäß Tabelle 7.1 ist der Standardfall einer Infrastruktur, bei der eine Ma- 
schine M das jeweilige Inputkorpus analysiert und Menschen die resultieren- 
den Ergebnisse im Zuge ihrer Interpretation evaluieren, eine degenerierte 
Form eines Interactive Genetic Algorithm (IGA), bei dem der Wissenschafts- 
prozess, in dessen Rahmen es zur Weiterentwicklung bzw. Ersetzung von M 
durch geeignetere Modelle kommt, den entsprechenden Optimierungsprozess 
implementiert. In Sektion 2 fokussieren wir auf diesen Standardfall und somit 
auf das gegenwärtig dominante Paradigma von Infrastrukturen. 

Indem die Geschwindigkeit von Evaluation und entsprechender Anpassung 
im Rahmen des zuvor genannten Wissenschaftsprozesses stetig zunimmt, 
nähern wir uns einem IGA an, bei dem M idealerweise selbst zum Gegenstand 
von Innovationen wird, um immer bessere Analyseresultate aus der Sicht ihrer 
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menschlichen Interpreten zu erzielen.!® An dieser Stelle sind Szenarien denk- 
bar, in denen Maschinen den Selektionsprozess unterstützen (Szenario 3) oder 
umgekehrt Menschen den Innovationsprozess ergänzen (Szenario 8). Beide 
Szenarien betten Instanzen dessen ein, was Kosorukoff Human-based Genetic 
Algorithm (HbGA) nennt und wofür Wiki-basierte Systeme derzeit die promi- 
nentesten Beispiele darstellen (Szenario 5). Dieser Lesart zufolge geht es im 
Zusammenhang der automatischen Textanalyse bei Szenario 3 und 8 um 
Ansätze, bei denen Menschen Wikis dazu verwenden, ihre Evaluationen, Kor- 
rekturen, Ergänzungen und Interpretationen automatisch erzeugter Analyse- 
resultate zu dokumentieren, so dass diese dazu herangezogen werden können, 
die zugrundeliegenden Algorithmen zu optimieren. Sektion 3 widmet sich einer 
Vorstufe dieser Variante von Infrastruktur, und zwar am Beispiel von Wiki- 
dition (Mehler et al. 2015). 

Die Extremfälle entlang der Hauptdiagonale von Tabelle 7.1, denen zufolge 
entweder Maschinen (DGA) oder Menschen (HbGA) die Rollen von Innovatoren 
und Selektoren einnehmen, ruft Szenario 9 auf den Plan, in welchem diese 
Rollen gemischt besetzt sind. Auf dieses Szenario, dem unserer Auffassung 
nach die Zukunft wissenschaftlicher Infrastrukturen gehört, fokussiert Beispiel- 
gebend Sektion 4. Es geht dabei um eine Architektur von Infrastrukturen für 
die verteilte interaktive evolutionäre Verarbeitung natürlicher Sprachen, wel- 
che auf die optimale Verflechtung von artificial und human computation zielt. 
In einem solchen Informationssystem interagieren NLP-Bots als textanaly- 
tische Pendants der oben genannten textgenerierenden Bots, und zwar so, dass 
ihre evolutionäre Weiterentwicklung durch wechselseitige Interaktion (DGA) 
wie auch durch Interaktion mit ihren menschlichen Nutzern (IGA), die unterei- 
nander kommunizieren, um ihre Ziele und Anforderungen weiterzuentwickeln 
(HbGA), stetig vorangetrieben wird. Szenario 9 zielt folglich darauf, die oben 
angesprochene Hybridisierung auf die Spitze zu treiben — diesem Szenario 
dürften zukünftige Infrastrukturen gewidmet sein. 

Zusammenfassend gesprochen thematisiert der Beitrag drei aufeinander 
aufbauende Infrastrukturbeispiele von zunehmender Interaktionskomplexität: 
Zunächst erläutert Sektion 2 eine Reihe von Bezugsgrößen der Dynamisierung 
von Infrastrukturen, die von adaptierbaren NLP-Pipelines bis hin zu verteilten 
Serverarchitekturen reichen. Damit werden zugleich Möglichkeiten und Grenzen 
des oben genannten Standardfalls benannt. Hierauf aufsetzend thematisiert 
Sektion 3 die Verzahnung von Natural Language Processing (NLP) und Wiki- 
Prinzip. Zu diesem Zweck wird mit Wikidition ein Hybrid-Wiki beschrieben, das 


10 Dieses Szenario entspräche - allerdings positiv gewendet - der evolutionären Optimierung 
von Bots (Cresci et al. 2017). 
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auf Interaktionsmöglichkeiten im Sinne eines HbGA zielt. Schließlich fokus- 
siert Sektion 4 auf die Aufgabe, sämtliche der zuvor thematisierten Entwick- 
lungstendenzen in einen Anforderungskatalog für Infrastrukturen zu überfüh- 
ren, die auf die optimale Interaktion von Algorithmen und ihren Nutzern 
zielen. Zu diesem Zweck wird mit VienNA ein Architekturmodell entworfen, 
das sich dieser Vision — sozusagen mit Blick auf 2020 - annimmt. Sektion 5 
fasst die Ergebnisse des Beitrags zusammen und gibt einen Ausblick auf zu- 
künftige Arbeiten. 


2 Textimager 


Die Verfügbarmachung von immer neuen Methoden für immer mehr Annota- 
tionsaufgaben, wie sie in der Einleitung beschrieben wurde, bildet eine Heraus- 
forderung für alle bestehenden Infrastrukturen. Folglich bedarf es der Entwick- 
lung flexibilisierter Architekturen, die dieses Wachstum bewältigen können. 
Dabei ist zu fragen, entlang welcher Dimensionen diese Flexibilisierung zu ge- 
währleisten ist. Zwecks Beantwortung dieser Frage rekurrieren wir auf Text- 
Imager (Hemati, Uslu & Mehler 2016; Uslu et al. 2017; Hemati, Uslu & Mehler 
2017) als ein Beispiel für Systeme, welche sich an der „klassischen“ und also 
weitgehend linearen, nicht-interaktiven Arbeitsteilung von zuerst algorith- 
mischer (automatischer) Analyse und nachfolgender (menschlicher) Inter- 
pretation der Analyseergebnisse orientieren (Hearst 1999). 

TextImager™ stellt NLP-Pipelines für die automatische Analyse textueller 
Einheiten bereit. Vergleichbar mit Voyant Tools (Rockwell & Sinclair 2016) geht 
es dabei um die interaktive Visualisierung textueller Strukturen, und zwar so, 
dass Interaktionen mit Texten zu Anpassungen der mit ihnen verschränkten 
Visualisierungen führen. TextImager erlaubt daher die Interaktion mit Visua- 
lisierungen, um das Browsen in den Inputtexten zu steuern, wie auch umge- 
kehrt das Browsen in Texten, um kontextsensitive Visualisierungen zu erzeu- 
gen. Vergleichbar mit DKPro (Eckart de Castilho & Gurevych 2014) nutzt 
TextImager Apache UIMA, um NLP-Tools zu orchestrieren. Eine der Aufgaben 
von TextImager besteht darin, die hiermit verbundenen Kombinations- 
möglichkeiten zu erweitern. Vergleichbar mit GATE (Cunningham 2002), 
RapidMiner (Ertek, Tapucu & Arin 2013) und WebLicht (Hinrichs, Hinrichs & 
Zastrow 2010) wird das Ziel verfolgt, Text-Mining-Werkzeuge auf einer mög- 
lichst breiten Basis verfügbar zu machen. Wie bei ConText (Diesner 2014) 


11 http://textimager.hucompute.org/ (letzter Zugriff: 30. 4. 2018). 
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betrifft dies auch netzwerkanalytische Software (Uslu et al. 2017). Im Prinzip 
soll jedes frei verfiigbare Tool fiir jede natiirliche Sprache, das UIMA-konform 
standardisiert ist, in TextImager integrierbar sein. Zurzeit werden Werkzeuge 
für Englisch (44), Deutsch (26), Spanisch (22), Französisch (13), Latein (10), 
Niederländisch (7) , Portugiesisch (8), Chinesisch (7), Italienisch (5), Dänisch (5), 
Arabisch (4), Türkisch (3) und Bulgarisch (2) bereitgestellt. 


Im Folgenden rekurrieren wir auf TextImager, um die oben eingeforderte 


Dynamisierung entlang von sechs Kriterien zu skizzieren: 


1. 


Multi-User-Systeme: Reproduzierbares datenorientiertes Arbeiten erfordert 
die Möglichkeit einer arbeitsteiligen Organisation unter Kooperations- 
partnern, die unterschiedliche Rechte an der Analyse und Annotation der 
zugrundeliegenden Daten halten können. Ausgehend von den Möglich- 
keiten, die Betriebssysteme zur Bildung entsprechender Arbeitsgruppen 
bieten, verwendet TextImager hierzu das Rechteverwaltungssystem des 
eHumanities Desktops (Gleim, Mehler & Ernst 2012). Auf diese Weise ist es 
prinzipiell möglich, Vererbungshierarchien über Entitäten zu definieren, 
die Subgraphen tripartiter Graphen über Usern (wer darf), Funktionen bzw. 
Werkzeugen (was bzw. womit) und Daten(-repositorien) (worauf) aufspan- 
nen, um etwa Rechte an Unter-Arbeitsgruppen einschränkend oder erwei- 
ternd zu vererben. Darüber hinaus ist TextImager auch anonym verwend- 
bar und erlaubt somit Nutzungsmodalitäten, wie sie für Wikis typisch sind. 
Multi-Service-Systeme: Automatisierungsfortschritte werden es obsolet 
machen, dass der Mensch auf allen Ebenen des NLP arbeitsorganisierend 
agiert, so dass zukünftig eher selbstorganisierende, selbstlernende Maschi- 
nen diese Arbeitsprozesse in Gang halten werden (siehe Sektion 4). Dies 
dürfte insbesondere den Bereich der so genannten Vorverarbeitung (zu der 
beispielsweise die Lemmatisierung oder das PoS-Tagging zählt) betreffen. 
Es sind aber auch Zusammenschlüsse bestehender Systeme und Entwick- 
lungsumgebungen denkbar, die Arbeitspakete untereinander austauschen, 
um Spezialisierungsvorteile zu nutzen. Eingedenk dieser Entwicklung bie- 
tet TextImager sämtliche seiner Werkzeuge als Webservices an, die folglich 
Plattform- und Programmiersprachen-unabhängig nutzbar sind. Das mit 
dieser Vorgehensweise verbundene Dynamisierungsprinzip bezieht sich 
folglich darauf, Infrastrukturen unabhängig von HCIs nutzbar zu machen. 
Multi-Pipeline-Systeme: Infolge der oben diagnostizierten Methodenvielfalt 
stehen für dieselbe Aufgabe (z.B. Tagging) immer mehr Algorithmen (z.B. 
Conditional Random Fields) und Werkzeuge (z. B. MarMoT) bereit, die ihrer- 
seits Parameterräume aufspannen und somit Entscheidungsalternativen 
auf zumindest drei Ebenen erzeugen. Zudem hat sich im Zuge der Entwick- 
lung der Computerlinguistik als wissenschaftliche Disziplin ein rudimen- 
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täres Prozessmodell etabliert, das eingeiibte Abfolgeregularitäten solcher 
Aufgaben festlegt. So setzt etwa das Semantic Role Labeling vielfach auf 
Parsing auf, das wiederum Ergebnisse von Lemmatisierung und PoS- 
Tagging voraussetzt. Ein solches Prozessmodell erlaubt Abstraktionen auf 
zumindest vier Ebenen: im Hinblick auf (a) die Klassifikation von Teil- 
aufgaben zum Zwecke der Methodenübertragung (PoS-Tagging und NER 
als Beispiele für Sequence Labeling), (b) die variierende Instanziierung des 
Prozessmodells zwecks Fokussierung auf Teilaufgaben, (c) die Orchestrie- 
rung von Teilmengen von Werkzeugen für dieselbe Aufgabe zur Erzeugung 
von Skaleneffekten (etwa mittels majority voting) und schließlich (d) die 
Neuordnung von Prozessschritten zwecks Erzielung von Seiteneffekten 
(wenn etwa Parsing-Ergebnisse dazu verwendet werden sollen, das PoS- 
Tagging nachzubessern). In diesem Zusammenhang bietet TextImager auf- 
grund seiner UIMA-basierten Architektur die Möglichkeit, seine Dienste 
mittels alternativer Pipelines zu ordnen, die zur Laufzeit erstellt werden. 
Auf diese Weise werden zumindest die Dynamisierungsschritte (b) und (c) 
adressiert. 

Multi-Server-Systeme: Zuwachs an Ressourcen bedeutet auch, dass immer 
mehr Rechnerkapazität benötigt wird, um die Arbeit von NLP-Tools auf 
immer größeren Datenmengen zu orchestrieren. TextImager begegnet 
dieser Herausforderung durch Verteilung seiner Services auf im Prinzip 
unbegrenzt viele Server, und zwar so, dass eine n:m-Relation von Diens- 
ten und Servern entsteht. Dieser Ansatz erlaubt das Ein- und Ausschalten 
bzw. Readressieren immer neuer Server und Services zur Laufzeit. Infolge 
dieser Dynamisierung muss keiner der Server mehr zusammen mit dem 
orchestrierenden System gehostet werden. Infrastrukturen dieser Art kön- 
nen folglich als Schnittstellen zu Multi-Server-Systemen ausgebaut wer- 
den, die aufgrund dezentraler Initiativen und Weiterentwicklungen stetig 
wachsen, ohne das eingangs erwähnte Kapazitätsproblem aufzuwerfen. 
Das ermöglicht es schließlich, dass Nutzer eigene Dienste, die auf ihren 
Servern liegen, mit Diensten etwa von TextImager kommunizieren lassen, 
um die verteilte Erledigung ihrer Annotationsaufgaben mittels dieser Infra- 
struktur zu verwalten. Dabei geht es auch um nicht frei zugängliche Res- 
sourcen (Korpora, Tools etc.), die auf proprietären Servern verbleiben, 
während sie im Verbund mit frei zugänglichen Ressourcen orchestriert 
werden. Darüber hinaus adressiert dieser Ansatz die Verarbeitung von Big 
Data, indem er die verteilte Verarbeitung gleichzeitiger Anfragen einer 
Vielzahl von Usern ermöglicht. 

Multi-Datenbank-Systeme: Ein Spiegelbild des Methodenzuwachses für 
immer mehr Annotationsaufgaben besteht in der Diversität resultierender 
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Repräsentationen ob nun in Form dokumentorientierter (XML-basierter) 
Baumstrukturen, datenorientierter Graphstrukturen oder numerischer Ver- 
teilungen. Um auch in diesem Bereich Skalengewinne zu erzielen, bedarf 
es eines Multi-Datenbank-Systems, das mehrere Datenbankmanagement- 
systeme (DBMS), welche für die Eigenheiten solcher Repräsentationen op- 
timiert sind, verwalten kann. So eignen sich beispielsweise Graphdaten- 
banken wie Neo4j für die Repräsentation simpler gerichteter Graphen, 
während MongoDB für die Verwaltung dokumentorientierter Strukturen 
besser ausgerüstet ist. Blazegraph wiederum eignet sich für die Verwaltung 
RDF-basierter Daten, wofür das Wikidata-Projekt ein anwendungs- 
technisches Aushängeschild ist. TextImager adressiert auch diesen As- 
pekt der Dynamisierung. Leitbild hierfür ist jene Offenheit, die bereits 
Multi-Server-Systeme charakterisiert: Es geht darum, immer neue Daten- 
banken in das System integrieren zu können, um noch immer bestehende 
Repräsentationsschranken - etwa im Hinblick auf die Analyse von Hyper- 
graphen — angehen zu können. Die dahinter stehende Erwartung betrifft 
die Erschließung von Skaleneffekten, welche aus der gleichzeitigen Ana- 
lyse unterschiedlicher Daten und Annotationen derselben sprachlichen 
Einheiten resultieren. Dahinter steht die Prognose, dass künftige NLP- 
Infrastrukturen in diesem Sinne hochgradig multimodal sein werden. 

6. Verzahnung: Indem sie „Machine Learning-lastiger“ werden, transformie- 
ren sich die Digital Humanities sozusagen zu Computational Humanities 
(Biemann et al. 2014). Je herausfordernder jedoch die geisteswissen- 
schaftliche Interpretationsarbeit, desto größer der Aufwand der „manuel- 
len“ Annotation von Trainings- und Testdaten, die dazu benötigt werden, 
Machine Learning-Verfahren für die Annotation von Textsegmenten zu 
trainieren, auf die die anvisierten Interpretationen bezogen oder poten- 
tiell beziehbar sind. Diese Aufgabe erfordert eine enge Verzahnung von 
automatischer Analyse und manueller Annotation. Es geht darum, letzte- 
re Prozesskette dahingehend zu dynamisieren, dass der Prozess der ma- 
nuellen Annotation durch das NLP massiv unterstützt wird, etwa durch 
Recommender-Systeme zur fortlaufenden Generierung von Annotations- 
und Vervollständigungsvorschlägen, die der Annotator idealerweise nur 
auszuwählen braucht, um seine Arbeit zu erledigen. Eingedenk dieser 
Dynamisierungsanforderung integriert TextImager Werkzeuge für die 
Annotation von rhetorischen und propositionalen Strukturen, um die 
Verschmelzung von Human Computation und Machine Learning voranzu- 
treiben. Dabei geht es letztlich um die Aufhebung der statischen Abfolge 
von manueller Annotation, automatischer Analyse und nachfolgender 
Interpretation. 
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Diese sechs Bezugsgrößen skizzieren Entwicklungsperspektiven von Infra- 
strukturen, die bei aller Unabdingbarkeit noch immer auf expertenseitige Nut- 
zer fokussieren und damit eine informatics literacy einfordern, wie sie von der 
Mehrzahl ihrer Nutzer noch lange nicht (wenn überhaupt jemals) erbracht 
(werden) wird. Infolge der linearen Ordnung von automatischer Analyse und 
intellektueller Interpretation lassen solche Systeme zudem jene Form von arti- 
fizieller Interaktivität zwischen Menschen und Maschinen vermissen, die auf 
die stetige Anpassung und Optimierung der involvierten Maschinen gerichtet 
ist (Mehler 2010). Klassische Systeme wie Voyant Tools oder TextImager sind 
genauer insofern nicht-interaktiv, als die Art und Weise der Interaktionen, die 
sie implementieren, nicht die Dispositionen der eingesetzten Algorithmen fiir 
zukiinftige Interaktionen mit ihren menschlichen Nutzern oder gar untereinan- 
der verändert (Mehler 2010). Anders ausgedrückt: Die Verwendung von Text- 
Imager setzt keine Lernprozesse aufseiten seiner Algorithmen in Gang. Folglich 
bedarf es - ganz im Sinne von Kriterium (6) — eines Systems, das sehr viel 
stärker die Interaktionsmöglichkeiten mit menschlichen Interpreten automa- 
tisch erstellter „Interpretations-Vorprodukte“ in den Vordergrund rückt und 
dabei gleichzeitig der Gefahr methodischer Blackboxes (siehe Sektion 1) begeg- 
net, indem es seinen Rezipienten weitreichende Interaktionsmöglichkeiten 
bietet, um letztere Informationsangebote zu diskutieren, zu adaptieren und 
gegebenenfalls zu optimieren. Dies ist die Aufgabe von Wikidition. 


3 Wikidition 


Oberhalb der Ebene von Einzeltexten geht es bei linguistischen Netzwerken 
darum, die kohärenzstiftenden Verknüpfungsrelationen ganzer Systeme sol- 
cher Einheiten horizontal (d. h. von Einheiten derselben Ebene) wie auch ver- 
tikal (d.h. von Einheiten verschiedener Ebenen) sichtbar zu machen, um 
schließlich Ausblicke auf Prozesse der Sprachevolution im Kontext sozial- 
semiotischer Netzwerke (siehe Sektion 1) zu gewinnen. Angesichts des in Sek- 
tion 1 diagnostizierten Methodenzuwachses ist dabei zu fragen, wie immer 
neue Methoden nutzbar werden sollen, um solche Vernetzungsrelationen zu 
identifizieren und zu annotieren, und zwar so, dass Rezipienten die Annota- 
tionsergebnisse interaktiv weiterverarbeiten können. Zur Beantwortung dieser 
Frage rekurrieren wir auf Wikidition (Mehler et al. 2015) als Beispiel für eine 
Infrastruktur, die die automatische Annotation mit dem Wiki-Prinzip (Leuf & 
Cunningham 2001) verbindet und folglich eine bei weitem stärkere Verflech- 
tung von artificial und human computation realisiert, als sie mit Textlmager 
und verwandten Systemen derzeit gegeben ist (siehe Sektion 2). Die Kernfunk- 
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Abb. 7.3: Polypartite Mehrebenen-Netzwerke als das Ergebnis von Wikidition. 


tionen von Wikidition lassen sich wie folgt zusammenfassen (zu den Details 

siehe Mehler et al. 2015): 

1. Linkifizierung: Ausgehend vom jeweiligen Inputkorpus (Mehler, Wagner & 
Gleim (2016) unterscheiden neun Varianten solcher Korpora) wird jedes 
seiner Segmente auf Wort-, Satz- und Textebene durch einen separaten 
Wiki-Artikel repräsentiert, seine syntagmatischen Kontiguitäts- und 
paradigmatischen Similaritätsrelationen exploriert und schließlich mittels 
Hyperlinks manifestiert. Auf diese Weise entsteht ein Mehrebenennetz- 
werk, in dem jedes Token mit seinem Type und jeder Type mit allen seinen 
Token verlinkt ist, so dass das resultierende Netzwerk im Sinne kommu- 
tierender Diagramme aus jederlei Perspektive (der Wort-, Satz- oder Text- 
ebene) in jederlei Richtung traversierbar wird. 

2. Lexikonisierung: Voraussetzung fiir die Linkifizierung ist die automatische 
Extraktion eines Korpus-spezifischen Lexikons, das Wikidition in Form 
eines eingebetteten Wiktionarys bereithält. Auf diese Weise werden auto- 
renspezifische Eigenheiten der im Inputkorpus enthaltenen Texte zugäng- 
lich. Dies bringt Abbildung 7.3 zum Ausdruck, bei der das gemeinsame 
Vokabular auf mehrere Sätze verlinkt, die von mindestens zwei Autoren 
stammen, während proprietäres Vokabular je auf Sätze eines Autors bezo- 
gen ist. 

3. Interaktivität: Da Wikidition im technologischen Sinne ein MediaWiki dar- 
stellt, das um Visualisierungsmethoden von TextImager erweitert ist, sind 
alle seine Inhalte durch alle dazu autorisierten Nutzer änderbar und erwei- 
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Abb. 7.4: Zur Verschränkung von artificial und human computation in Wikidition ausgehend 
von Korpus C und seiner Ergänzung um Korpus X (vgl. Mehler et al. 2015). 


terbar. Das hat den Vorteil, dass alle automatisch erzeugten Annotationen 
Revisionen unterzogen werden können, und zwar so, dass diese Revisionen 
nach dem Wiki-Prinzip interaktiv optimiert werden können. Wikidition 
ermöglicht folglich die Implementation eines Human-based Genetic 
Algorithm im Sinne von Kosorukoff (2001) (siehe Tab. 7.1). Anders als der 
nachfolgend vorzustellende Ansatz wirkt sich die hierdurch implemen- 
tierte Interaktivität jedoch nicht auf die fortschreitende Anpassung der 
involvierten NLP-Routinen aus: Wikidition ermöglicht derzeit daher keine 
artifizielle Interaktivität im Sinne von Mehler (2010). 

4. Reproduzierbarkeit: Ergänzt werden die Kernfunktionen durch die gleich- 
zeitige Verfiigbarmachung jener Modelle, die zwecks Generierung der Wiki- 
dition berechnet wurden. Auf diese Weise werden die betroffenen Modelle 
auch außerhalb der jeweiligen Wikidition nachnutzbar und reproduzierbar. 


Den Ablauf der Erstellung einer Wikidition zeigt Abbildung 7.4: Im ersten 
Schritt generiert der Wikidition-Algorithmus das oben genannte Mehrebenen- 
netzwerk, das durch nutzerseitige Interaktionen revidiert und erweitert werden 
kann, ehe Korpora und daraus extrahierte Lexika ergänzt und mit den vorhan- 
denen Ressourcen vernetzt werden. Wikidition ist -— wie schon TextImager — 
sequenziell organisiert: Auf die initiale maschinelle Verarbeitung seiner Text- 
basis folgt ihre Überarbeitung durch menschliche Agenten, die ergänzen oder 
korrigieren können, was die maschinelle Verarbeitung unvollständig oder feh- 
lerhaft annotiert hat. Nachfolgend operierende maschinelle Agenten erweitern 
vorrangig die Textbasis, ohne zuvor erzeugte Annotationen oder ihre eigene 
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Lernbasis einer maschinellen Revision zu unterziehen. Anders ausgedriickt: 
Wikidition zielt nicht auf die Optimierung der involvierten NLP-Routinen, 
sondern auf die andauernde Annotation und Vernetzung der thematisierten 
Sprachressourcen. Verfahrensinnovationen erfolgen extrinsisch durch Weiter- 
entwicklung von TextImager, auf dem Wikidition basiert. Die verwendeten 
NLP-Routinen bilden somit einen prozeduralen Input, der mittels einer vorge- 
gebenen Pipeline orchestriert wird. Aus dem Blickwinkel zukünftiger Text- 
technologien bietet dieses Szenario eine Reihe von Ansatzpunkten fiir eine 
Weiterentwicklung hin zu Verfahren der verteilten evolutiondren Verarbeitung 
natiirlicher Sprachen, die vor allem auch auf die Optimierung der involvierten 
NLP-Routinen zielt. Dies wird nachfolgend skizziert. 


4 VienNA 


Die Grundlage des nun zu skizzierenden Textanalysemodells bildet das Kon- 
zept des Human-based Evolutionary Computing (HbEC) (Nickerson 2013), das 
auf menschliche Agenten rekurriert, um Prozessschritte des zugrundeliegenden 
Evolutionären Algorithmus (EA) zu implementieren bzw. mittels Human 
Computation (HC) (Michelucci 2013) zu ergänzen. Der Vorteil von HbEC be- 
steht in der Integration einer memetischen Komponente (Nickerson 2013), 
mittels derer die Selektion von Genotypen durch Rekurs auf den Wissens- 
bzw. Interessenshintergrund von Nutzern gesteuert werden kann. Die Imple- 
mentation dieser Komponente mittels des für Wikidition konstitutiven Wiki- 
Prinzips und folglich die Verteilung des HC auf ein Netzwerk interagierender 
Prosumenten (Tapscott & Williams 2008) - im Folgenden spezieller Wiki- 
ditoren genannt — bedeutet dann, dass letzteres Wissen als das Ergebnis eines 
Wiki-vermittelten Koordinationsprozesses resultiert. Darüber hinaus soll der 
Koordinationsprozess auf die beteiligten NLP-Komponenten ausgedehnt wer- 
den, so dass diese als „eigenständige“ Koordinationspartner untereinander 
ebenso wie mit den beteiligten Prosumenten interagieren. Auf diese Weise soll 
ein EA implementierbar werden, der Szenario 9 aus Tabelle 7.1 adressiert, in 
dessen Rahmen alle NLP-Komponenten zu NLP-Bots mutieren. Dieser Modell- 
rahmen ist entlang folgender Bezugsgrößen auszuarbeiten:"? 
1. Integration von Evolutionary und Social Computing: An erster Stelle geht es 
um die bereits thematisierte Weiterentwicklung des HbEC zu einem Distri- 


12 Dabei sprechen wir von Aktualgenese als einem Prozess auf einer kurzfristigeren Zeitskala, 
und zwar im Verhältnis zur jeweiligen Ontogenese. 
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buted Human-based Evolutionary Computing (Michelucci 2013) bzw. Social 
Computing (Michelucci 2013), wie es fiir Wikidition konstitutiv ist. 

2. Ontogenese von NLP-Bots: An zweiter Stelle geht es um die Dynamisierung 
der involvierten NLP-Komponenten, die nicht länger einen zwar proze- 
duralen, aber statischen, im aktualgenetischen Sinne also konstanten 
Input bilden, sondern selbst einer Evolution unterliegen sollen. 

3. Aktualgenese von Annotationen: Basierend auf den vorangehenden Dyna- 
misierungsschritten sollen die anvisierten Annotationen der zugrundelie- 
genden Ressourcen (Texte, Lexika etc.) fortlaufend erzeugt bzw. angepasst 
werden, und zwar mit dem Ziel ihrer fortgesetzten Optimierung unter 
Bedingungen, die aus dem Verhalten der beteiligten Prosumenten bzw. 
kooperierenden oder konkurrierenden Bots resultieren. Annotationspro- 
zesse werden in vergleichsweise kurzen Zeiträumen vollzogen, so dass bei 
jedesmaliger Verwendung der betroffenen Wikidition deren stetige Verän- 
derung beobachtbar wird. 

4. Genese der Repräsentationen sprachlicher Einheiten: In Bezug auf letztere 
Aktualgenese unterscheiden wir zwei Prozessebenen der Repräsentation 
sprachlicher Einheiten: zum einen die Genese von Merkmalen bzw. Zähl- 
einheiten zu annotierender Objekte und zum anderen die Genese von Anno- 
tationseinheiten (als Manifestationen der anvisierten Interpretationen). 
Man beachte, dass Annotationseinheiten aus der Sicht bestimmter Bots 
Zähleinheiten aus der Sicht anderer Bots sein können. Um die hiermit ver- 
bundene Offenheit des operativen Textrepräsentationsmodells (Mehler 
2007) beherrschbar zu machen, gehen wir von einer Grammatik zur Gene- 
rierung von Datentypen im Rahmen eines verallgemeinerten Klassifika- 
tionsszenarios aus (siehe unten). 

5. Genese des Agentennetzwerks: Die NLP-Bots sind schließlich zu soziotech- 
nischen Gemeinschaften zu integrieren, in denen sie mit ihresgleichen wie 
auch mit Prosumenten interagieren, und zwar so, dass ihre Orchestrierung 
selbst zum Gegenstand eines evolutionären Prozesses wird. Auf dieser 
Grundlage ist zu vermeiden, dass die Orchestrierung etwa in Form einer 
statischen NLP-Pipeline vorgegeben wird. Das Agentennetzwerk repräsen- 
tiert, welcher menschliche oder künstliche Agent mit welchem anderen 
Agenten auf welche Weise (etwa Daten liefernd oder nachnutzend) inter- 
agiert. Das Netzwerk bildet eine emergente Eigenschaft von VienNA, die 
auf einer Zeitskala zwischen Aktual- und Ontogenese fluktuiert. 


13 Im einfachsten Fall der Textklassifikation sind dies Klassenlabels. 
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6. Phylogenese von NLP-Bots: Auf der äußersten (langfristigsten) Zeitskala 
sind schließlich jene Evolutionsprozesse anzusiedeln, die die Herausbil- 
dung von Klassen von NLP-Bots und deren „Abstammungsverhältnisse“ 
betreffen. Dabei handelt es sich um Prozesse, die derzeit noch immer voll- 
ständig in Menschenhand liegen, etwa dann, wenn es darum geht, z.B. 
das Lemmatisieren, PoS-Tagging, Dependency Parsing oder das Argument 
Mining als verschiedene, teils interdependente NLP-Aufgaben abzugrenzen 
und entsprechende Algorithmen zu entwickeln. Aus konzeptioneller Sicht 
versteht sich unser Ansatz als eine Architektur, in der schließlich auch diese 
Prozesse zum Gegenstand eines evolutionären Prozesses werden sollen. 


Eine NLP-Architektur, die zumindest die Komponenten (1-5) beinhaltet, und 
also die Ontogenese von Bots und eine hierauf beruhende Aktualgenese von 
Textrepräsentationen vorsieht, bezeichnen wir als verteilte evolutionäre neuro- 
nalplastische NLP-Architektur (VienNA). Unter Hinzuziehung eines Modells 
der Phylogenese von Bots thematisiert VienNA folglich mehrere Zeitskalen, 
deren Dynamiken zum gegenwärtigen Stand des NLP mit Ausnahmen im 
Bereich der Aktualgenese und teils der Ontogenese noch immer fest in Men- 
schenhand liegen. 

Eine fundamentale Herausforderung der Umsetzung von VienNA bildet die 
Begrenzung des Textrepräsentations- bzw. Annotationsraums, den die beteilig- 
ten NLP-Bots infolge ihrer andauernden Arbeiten aufspannen. Es geht dabei 
unter anderem darum, zu verhindern, dass die Bots diesen Raum stetig vergrö- 
Bern — auch im Hinblick auf Annotationen, die die involvierten Wikiditoren 
positiv evaluieren. Diese Problematik kann am Beispiel der Wikidition aus 
Sektion 3 erläutert werden, deren lexikalische Einheiten im Schnitt über hun- 
derte Links mit Einheiten derselben oder anderer Sprachebenen verknüpft wer- 
den. Würden Bots in einem solchen Szenario weitgehend ungehindert intra- 
und interrelationale Relationen annotieren, erreichte deren Zahl schnell eine 
Größe, die die zugrundeliegende DB nicht mehr erfassen kann und aus der 
Sicht der Prosumenten unzumutbar, da nicht rezipierbar wäre. Folglich ist 
in VienNA die Selektion von Annotations-Genotypen an eine oder mehrere 
Fitness-Funktionen zu binden, die unter anderem die Raumkomplexität, die 
Rezipierbarkeit sowie die Filter- und Kontextualisierbarkeit von Genotypen 
ebenso reflektiert wie deren Prosumenten-orientierte Interpretierbarkeit, 
Nützlichkeit!* oder deren Innovationsgrad. Man kann sich die entsprechen- 


14 Was interpretierbar ist, ist nicht notwendigerweise auch nützlich. 
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den Fitness-Funktionen als ein System vorstellen, das einen Constraint Satis- 
faction Process (CSP) induziert: Erzeugt ein Bot einen Annotationsvorschlag 
(möglicherweise infolge seiner evolutionären Weiterentwicklung), so hat sich 
dieser etwa unter Beachtung der fiir den CSP geltenden Raumkomplexitats- 
schranke dahingehend zu bewähren, dass er fitter ist als mindestens eine der 
bereits bestehenden Annotationen, deren Speicherbedarf ersetzungshalber zu 
beanspruchen ware. Hierzu kann die Fitnessfunktion auf die sich wandelnden 
Interessen der Wikiditoren rekurrieren, um eine Erstarrung der Wikidition zu 
verhindern: fitter ist sozusagen das, was die je aktuellen, prinzipiell aber wech- 
selnden Interessen der Prosumenten besser bedient. 

Um VienNA als Instanz eines EA zu konstruieren, der zumindest auf den 
zwei genannten Zeitskalen operiert, orientieren wir uns an der Wiedergabe 
eines EA nach Nickerson (2013). Dieser beinhaltet zunächst genau eine Zeit- 
skala evolutionärer Dynamik (siehe Algorithmus 1). Ziel ist es, die Verfahrens- 
schritte eines solchen EA im Sinne der anvisierten Dynamisierung zu kon- 
kretisieren. Hierzu ist anzugeben, wie sich die Zeitskalen von VienNA in 
Algorithmus 1 einbetten lassen. Um angesichts der Vielfalt von NLP-Aufgaben 
die Machbarkeit der Darstellung zu wahren, konzentrieren wir uns beispielge- 
bend auf zwei Klassen von Aufgaben: Textkategorisierung (Joachims 2002) und 
Textähnlichkeitsmessung (Bär et al. 2012). Wir beginnen mit der Textkategori- 
sierung, mit deren Hilfe einstellige Relationen gelernt werden. 


Algorithmus 1: Schema eines Evolutiondren Algorithmus (EA) nach Nickerson 
(2013). 


01 erzeuge eine initiale Generation G von Lösungen; 
02 evaluiere G; 
03 while G lässt sich verbessern do 


04 | erzeuge eine Menge K von möglichst vielen Paaren von Elementen 
aus G; 

05 | foreach Paar aus K do 

06 erzeuge Nachkommen mittels Kombination dieser Paare; 

07 mutiere die Nachkommen; 

08 evaluiere die Nachkommen; 

09 | end 

10 | selektiere die nächste Generation aus der Menge der Eltern und 
Nachkommen; 

11 end 


12 return Menge der besten Lösungen; 
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4.1 Einstellige Relationen 


Textkategorisierung ist als Konkatenation 


gof:C>Z (1) 


zweier Funktionen aufzufassen, bei der f : C > X jedem Text(segment) t € C 
des Korpus C eine Textrepräsentation (etwa einen Vektor im Sinne des Vektor- 
raummodells) als Element der Repräsentationsmenge X zuordnet, die die Funk- 
tion g : X > Z auf Klassenlabels der Menge Z abbildet. Man beachte, dass die 
Konstituenten der Repräsentation f(t) nicht t entstammen müssen.” fund g 
werden i.d.R. getrennt implementiert. Beide Funktionen besitzen daher unter- 
schiedliche Parameterräume, die nachfolgend separiert betrachtet werden. 

— Zum Parameterraum von g: Wir gehen zunächst davon aus, dass g als SVM 
implementiert wird. Der g-induzierte Parameterraum beinhaltet dann Klas- 
sen von Kernels (z. B. linear, polynomial, ..., string kernel, tree kernel, graph 
kernel), die jeweils Kernel-spezifische Parameter induzieren. Ein solcher 
Parameterraum lässt sich unmittelbar zum Gegenstand eines EA machen, 
dessen Lösungsraum aus Binärvektoren besteht, und zwar indem die Kom- 
bination von Lösungspaaren (Algorithmus 1, Zeile 6) ebenso wie deren Mu- 
tation (Zeile 7) mittels Bitoperationen implementiert wird, wobei Parameter 
und Dimensionen solcher Vektoren eineindeutig aufeinander abgebildet 
sind. Demgegenüber gestaltet sich die Suche in den Räumen jener Parame- 
ter als schwieriger, die die Gestalt von g festlegen. Am Beispiel mehr- 
schichtiger Feedforward-Netze lässt sich ein solcher Raum als mehrdimen- 
sionales Grid auffassen, in dem zum Zwecke der Optimierung ein Random 
Walk durchgeführt wird. Im zweidimensionalen Fall lassen sich so etwa 
Kombinationsmöglichkeiten der Parameter i-ter Layer und Anzahl Neuro- 
nen abbilden. Mit Hilfe solcher Zufallsbewegungen lassen sich Rekombina- 
tionen und Mutationen im Sinne von Zeile 6 bzw. 7 aus Algorithmus 1 ab- 
bilden. Wir unterteilen folglich den Parameterraum von g in den Raum R, 
jener Parameter, die die Klasse von Funktionen (linearer Kernel vs. String- 
Kernel etc.), denen g angehört, festlegen, und den Raum R, jener Parame- 
ter, die den Phänotyp von g als Instanz dieser Klasse bestimmen. Rekombi- 
nationen und Mutationen in R, bedingen dann solche in R, - an dieser 
Stelle fehlt der Platz, dies ausführlich darzustellen. 


15 Etwa bei der Merkmalsexpansion in Bezug auf ein Lexikon. Alternativ, wenn tein Segment 
eines Texts ft’ ist, kann f(t) Merkmale aus der Umgebung von t in t’ beinhalten. 
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Zum Parameterraum von f: Aufgabe der Parameteroptimierung ist nun die 
Erzeugung von Merkmalen zur Charakterisierung von Einheiten aus C. Wir 
gehen davon aus, dass diese Merkmale mittels einer Grammatik rekursiv 
aufzahlbar sind. Da die Spezifikation einer solchen Grammatik die Grenzen 
des Beitrags sprengte, beschranken wir uns auf einen skizzenhaften Mo- 
dellausschnitt. Unser Ansatz besteht darin, (1) Textsegmente als Mengen, 
Pfade, Bäume oder allgemeinere Graphen zu repräsentieren, um (2) hie- 
raus häufige Teilmengen (z.B. frequent itemsets, Aggarwal & Han 2014), 
Teilsequenzen (z.B. k-Skip-n-Gramme, Guthrie et al. 2006), Teilbäume 
(Zaki 2005) oder Teilgraphen (z. B. motifs, Milo et al. 2002) zu extrahieren, 
so dass (3) diese im Folgenden als Motive bezeichneten Muster ihrerseits in 
ihrer Mengen, Pfad-, Baum- oder Graph-basierten Zusammenhangsstruktur 
untersuchbar werden, und zwar mittels aggregierter Motive.!° Die Motive, 
die auf der jeweiligen Rekursionsstufe extrahiert werden, bilden Merkmale 
in Form von Ereignissen, die sich aus zugrundeliegenden Zähleinheiten 
(wie etwa Lexeme) zusammensetzen. Hieraus resultieren Häufigkeitsvertei- 
lungen der Motive über den Instanzen des beobachteten Segmenttyps 
(Merkmalsträger erster Ordnung wie z.B. Sätze), die mit Hilfe von Funk- 
tionen (wie Lage, Streuungs-, Konzentrations- oder Gestaltparameter) 
schließlich auf die Ausprägungen entsprechender Merkmale von Einheiten 
x € C des Zieltyps (Merkmalsträger zweiter Ordnung wie z.B. Texte) abge- 
bildet werden können. Dabei müssen Merkmalsträger zweiter Ordnung 
nicht jene erster Ordnung enthalten!’ und können sogar mit diesen zusam- 
menfallen. In diesem Ansatz spannen unter anderem die Auswahlgesamt- 
heit für Merkmalsträger erster Ordnung, die Länge bzw. Größe von Moti- 
ven, Signifikanzschranken für deren Häufigkeit, die Rekursionstiefe zur 
Berechnung aggregierter Motive sowie Funktionen zur Charakterisierung 
von Häufigkeitsverteilungen von Merkmalen einen Parameterraum auf, der 
wieder zum Gegenstand eines Random Walks gemacht werden kann, wobei 
für jede solcherart „aktivierte“ Parameterkonstellation die Merkmalsaus- 
prägungen der Einheiten aus C zu berechnen sind. Nachfolgend denotieren 
wir diesen Raum mit R3. Offenbar ist R, derart groß und letztere Berech- 
nungen dermaßen komplex, dass eine Zufallsbewegung, die mit dem ein- 


16 Dabei bilden Pfade etwa Tokenfolgen ab, während Bäume zur Abbildung von Dependenz- 
strukturen und ((un-)gerichtete) Graphen zur Abbildung von Assoziationsnetzwerken sprachli- 
cher Einheiten (z.B. der Wortebene) dienen. Aggregationen von Motiven werden beispielswei- 
se in Mehler (2006) beschrieben. 

17 Im umgekehrten Fall werden Merkmale aus der Umgebung eines Segments auf dieses ab- 
gebildet. Dies geschieht beispielsweise bei der Lemmatisierung. 
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fachsten Setting in Form eines Bag-of-elementary-Features-Modell) be- 
ginnt, die einzig effiziente Möglichkeit seiner Traversierung sein dürfte. 


Dieser Ansatz deckt eine recht allgemeine Klasse von NLP-Aufgaben ab, wie 
z.B. Lemmatisierung, PoS-Tagging, Sentimentanalyse oder Textkategorisie- 
rung. Er beinhaltet das klassische Bag-of-words-Modell ebenso wie Modelle ba- 
sierend auf Grammen höherer Ordnung oder auf Mustern in Form von Teilgra- 
phen. Seine Grundidee besteht darin, jedwedes Muster (mengenmäßiger, 
sequenzieller oder graphenmäßiger Art) auf numerische Merkmalsvektoren ab- 
zubilden, die zum Input von Neuronalen Netzwerken ebenso gemacht werden 
können wie von SVMs. An dieser Stelle stellt sich die Frage, warum man nicht 
einfach auf Neuronale Netze rekurriert, um das hier skizzierte Merkmalsaus- 
wahlproblem zu lösen. Der Grund besteht darin, dass unser Ansatz insofern 
transparenter ist, als er darauf zielt, Merkmale mittels Bitoperationen explizit 
„ein- oder auszuschalten“, so dass man Lösungen als Ergebnisse entsprechen- 
der Optimierungsdurchläufe unmittelbar ablesen kann, welche Merkmalskons- 
tellationen für sie ausschlaggebend waren. 


4.2 Binäre Relationen 


Anders als die Kategorisierung ist die Ähnlichkeitsmessung insofern relational, 
als entsprechende Funktionen go f: Cx C> R,f:CxC>XxX, 
g:Xx X > R, Paare von Textsegmenten auf Ähnlichkeitswerte abbilden. Der 
Einfachheit halber nehmen wir an, dass diese Werte im Intervall I = [0,1] liegen 
und sich wie Zugehörigkeitswerte einer unscharfen Menge lesen lassen. Dieses 
Szenario lässt sich unmittelbar als Kategorisierungsaufgabe rekonstruieren 
und erlaubt daher den zuvor erarbeiteten evolutionären Zugriff. Dazu besteht 
die Möglichkeit einer Benennung von Teilintervallen des Intervalls I etwa mit 
Elementen der Menge Z’ = {ähnlich, eher ähnlich, unentscheidbar, eher unähn- 
lich, unähnlich}, so dass die Ähnlichkeitsmessung als Kategorisierungsfunktion 
g’ of’: Cx C> Z’notierbar wird. Man beachte, dass sich unüberwachte Verfah- 
ren der Textähnlichkeitsmessung dazu eignen, die durch Z’ benannte Parti- 
tion mit Beispielen aufzufüllen — andernfalls ist mit intellektuell erzeugten 
Trainingsbeispielen zu operieren. Auf der Basis einer solchen Rekonstruktion 
kann nicht nur die Ähnlichkeitsmessung — wie bereits die Textkategori- 
sierung — zum Gegenstand eines EA gemacht werden. Nach diesem Muster 
können vielmehr alle Klassen von Aufgaben, die binäre Relationen über Text- 
segmenten lernen (z.B. Textual Entailment), zum Gegenstand von VienNA 
gemacht werden. 
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4.3 Einbettung 


An dieser Stelle sind mehrere Möglichkeiten denkbar, die Optimierung der 

Funktionen f und g in das Schema von Algorithmus 1 einzubetten. Wir be- 

schränken uns auf die Variante, dass Algorithmen (R,) und deren Parameter 

(R2) gleichzeitig mit den vektoriellen Repräsentationen Input-bildender Texte 

(bzw. Textsegmente) (R;) optimiert werden. Wegen der Größe von R; ist es 

wenig sinnvoll, die Suche in diesem Raum jener in R, (bzw. R,) rekursiv unter- 

zuordnen: Die evolutionäre Dynamik bliebe mutmaßlich auf R; beschränkt. Es 
besteht jedoch die Möglichkeit, in den Zeilen 6 und 7 aus Algorithmus 1 Bewe- 

gungen in R, wahrscheinlicher zu machen. Generationen von Lösungen (Zeile 1) 

entsprechen dann stets Parameterkonstellationen in allen drei Räumen (R, ... R;) 

und also Algorithmen und Repräsentationsmodellen, die in mehreren Teil- 

populationen organisiert sein können, ob nun im Wettbewerb miteinander 
oder nicht (etwa dann, wenn sie dieselben oder verschiedene Klassifikations- 
aufgaben adressieren). Der entscheidende Punkt dabei ist, dass Parameter- 
konstellationen, die zu Klassifikationen von Textsegmenten und entsprechen- 

den Annotationen führen, selbst zum Gegenstand der Merkmalsbildung im 

Sinne von Sektion 4.1 und 4.2 werden können.'® Die Evaluationen der Zeilen 2 

und 8 sind schließlich mittels einschlägiger Evaluationsmaße (z.B. F-Score) 

implementierbar, was initial bereitzustellende Trainings- und Testdaten vor- 
aussetzt.!? Zeile 10 bietet den Einstiegspunkt für Wikiditoren, die nun alte oder 
neue Lösungen verwerfen bzw. auswählen können, was zu Revisionen von 

Evaluationen aus Zeile 8 führen kann. Die Selektionsfunktion aus Zeile 10 steht 

genauer in Zusammenhang mit drei Szenarien: 

1. Szenario 1: Dies betrifft zunächst die bereits erläuterte Variante, bei der 
Wikiditoren die Selektion durchführen, z.B. zwecks Bedienung einer me- 
metischen Funktion (siehe oben). Dieses Szenario entspricht einem Anno- 
tationsspiel, das auf zwei Ebenen überwacht ist: auf der Ebene der einge- 
bauten Fitting-Funktionen (Zeile 2 und 8) und der durch Vorwissen oder 
Interessen geleiteten Selektion (Zeile 10), wobei durch Wikiditoren getätigte 
Bewertungen etwa in Form von Korrekturen das zugrundeliegende Trai- 
nings- und Testmaterial stetig erweitern bzw. verändern. Ein solches Anno- 


18 Dadurch können beispielsweise Annotationen von Wortarten als Ergebnis des PoSTaggings 
anstelle der betroffenen Lexeme im Hinblick auf sequenzielle Muster betrachtet werden, die 
entsprechende Tokenfolgen erzeugen. 

19 Von den hiermit zusammenhängenden Parameterräumen abstrahieren wir aus Platzgrün- 
den. Ferner sei darauf hingewiesen, dass dies zugleich der Ansatzpunkt für die anfangs der 
Sektion aufgezählten Fitness-Funktionen ist, welche weit über Maße wie F-Score hinauszuge- 
hen erfordern. 
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tationsspiel zielt auf folgende Leitfrage: Inwieweit lösen die involvierten, 
fortwährend nachjustierten Verfahren und errechneten Repräsentationen die 
gestellten Aufgaben im Sinne der beteiligten Wikiditoren? 

2. Szenario 2: Demgegenüber besteht die Möglichkeit, die Selektion ebenfalls 
zu automatisieren, was zunächst auf Szenario 1 aus Tabelle 7.1 hinausliefe. 
Es besteht nun aber die Möglichkeit, die gestellten Annotationsaufgaben 
als Bots zu konzipieren, die sich variable Manifestationen in den Räumen 
R; ... Rz selbstlernend suchen und einander dahingehend bewerten, inwie- 
weit sie ihre Aufgabenbewältigung wechselseitig selbstorganisierend un- 
terstützen. Ein solches Annotationsspiel zielt auf folgende Leitfrage: Zu 
welchen Annotation führt „das freie Spiel“ der Bots, die sich kooperations- 
halber mit welchen anderen Bots auf welche Weise vernetzen, so dass die 
Reihenfolge, in der diese agieren, zur variablen Modellgröße wird und nicht 
mehr als NLP-Pipeline vorgegeben zu werden braucht? 

3. Szenario 3: Ein drittes Szenario betrifft Mischformen letzterer beider Anno- 
tationsspiele, so dass Wikiditoren neben Bots als Selektoren in Wikidition 
agieren. Dieses Szenario zielt auf die Beantwortung folgender Leitfrage: Ab 
welchem Zeitpunkt besteht die Möglichkeit des Übergangs zu Szenario 2, 
ohne dass Wikiditoren länger in den Selektionsprozess eingreifen müssen, 
um die evolutionäre Dynamik jenen Zustand approximieren zu lassen, auf 
den Szenario 1 zielt? Szenario 3 adressiert sozusagen den Übergangsbereich 
von Szenario 1 zu 2. 


Idealerweise liefe Szenario 3 darauf hinaus, die Annotation sprachlicher Ein- 
heiten, wie sie die Informatik und verwandte Disziplinen bislang unterstützen, 
soweit zu automatisieren, dass sie als Aufgabenstellung weitgehend erledigt 
wäre. Angesichts der Offenheit des menschlichen Interpretationsuniversums 
kann unmittelbar die Unmöglichkeit eines vollständigen Unterfangens dieser 
Art konstatiert werden. Dies wirft jedoch die Frage auf, wieweit man mit einer 
solchen Automatisierung gehen kann, inwieweit sich also die Arbeit der Com- 
puterlinguistik als wissenschaftliche Disziplin automatisieren lässt. 


5 Schlussfolgerung 


In diesem Beitrag haben wir vier Entwicklungslinien aufgezeigt, die einen 
erheblichen Anpassungsdruck auf die Weiterentwicklung von Infrastrukturen 
für die Digital Humanities erzeugen. Dies nahmen wir zum Anlass, mit Text- 
Imager, Wikidition und VienNA Beispiele für drei Klassen von Infrastrukturen 
zu betrachten, die sich unter anderem durch die Interaktionsmöglichkeiten 
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unterscheiden, die sie ihren Nutzern bieten. Mit VienNA haben wir an dritter 
Stelle eine neuartige Architektur für eine hochgradig interaktive Infrastruktur 
skizziert, die auf die vollständige Automatisierung der Annotation sprachlicher 
Einheiten zielt, so dass Interaktion letztlich die Kooperation selbstorganisier- 
ter, selbstlernender NLP-Bots meint. Zukünftige Arbeiten sind einer experimen- 
tellen Erprobung dieser Architektur gewidmet. 
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Hans-Jürgen Bucher und Philipp Niemann 
8 Infrastrukturen zur Erforschung 
medienspezifischer Sprachverwendung 


Am Beispiel der Rezeptionsforschung 


Abstract: Infrastrukturen in der Medienforschung haben sich lange Zeit auf 
die Dokumentation und Speicherung von Print-, Audio- und Video-Materialien 
beschränkt, die in Kooperation mit technischen Abteilungen der Universitäten 
oder Forschungseinrichtungen bewerkstelligt wurden. Durch die experimentel- 
le Medienforschung und die Beforschung großer Internet-Korpora ergeben sich 
neuartige infrastrukturelle Anforderungen, auf die auch die entsprechenden 
Förderprogramme nicht optimal abgestimmt sind. Der Beitrag stellt die 
Chancen und Probleme gerätebasierter Medienforschung für zwei Forschungs- 
bereiche dar: die experimentelle Datenerhebung in der Rezeptionsforschung 
und die digitalisierte Ablage von Forschungsdaten. 


Keywords: Experimentelle Datenerhebung, Forschungsförderung, Forschungs- 
werkzeuge, Medienwissenschaft, Rezeptionsforschung 


1 Die Ausgangslage: zum Bedarf an 
Infrastrukturen in der Medienforschung 


In den Geistes- und Kulturwissenschaften nahm die sprachwissenschaftliche 
Medienforschung hinsichtlich spezifischer infrastruktureller Anforderungen 
für lange Zeit eine Sonderstellung ein: Zeitungsforschung war auf Vervielfälti- 
gungs- und Archivierungstechnologien - z. B. Mikrofilme — angewiesen, Fern- 
sehforschung, Hörfunkforschung und später die Online-Forschung erforderten 
elektronische Aufzeichnungs- und Speichertechnologien. Diese infrastruktu- 
rellen Anforderungen wurden in der Regel durch eine Kooperation zwischen 


Hans-Jürgen Bucher, Medienwissenschaft, Universität Trier, Universitätsring 15, D-54286 Trier, 
E-Mail: bucher@uni-trier.de 

Philipp Niemann, Abteilung Wissenschaftskommunikation, Institut für Germanistik, 
Karlsruher Institut für Technologie (KIT), Kaiserstr. 12, D-76131 Karlsruhe, 

E-Mail: philipp.niemann@kit.edu 


8 Open Access. © 2018 Hans-Jürgen Bucher und Philipp Niemann, publiziert von 


De Gruyter. Dieses Werk ist lizenziert unter der Creative Commons Attribution 4.0 Lizenz. 
https://doi.org/10.1515/9783110538663-009 


178 — Hans-Jürgen Bucher und Philipp Niemann 


Wissenschaft und technischen Abteilungen der Universitäten oder der For- 
schungseinrichtungen sichergestellt. Was allerdings die Analyse des gespei- 
cherten Materials betrifft, so ist die sprachwissenschaftliche Medienforschung, 
wie die linguistische Forschung zur Sprachverwendung insgesamt, lange Zeit 
weitgehend ohne infrastrukturelle Ausstattung ausgekommen. Empirische 
Forschung bedeutete in der Regel das Sammeln aussagekräftiger Beispiele, das 
Anlegen von kleinen Korpora und die händische Analyse exemplarischer Fälle, 
die dazu beitragen sollten, den Zusammenhang zwischen Medienstrukturen 
einerseits und Sprach- und Kommunikationsstrukturen andererseits zu er- 
hellen. Es dominierten qualitative, interpretierende Methoden, die von Einzel- 
forschern oder kleineren Forschergruppen leicht zu organisieren waren. Auf- 
grund der Spezifik der verschiedenen Fallstudien hat die Frage nach möglichen 
Sekundäranalysen der Daten und Materialien ebenso keine relevante Rolle 
gespielt wie die Vergleichbarkeit der Befunde. Wie die in den verschiedenen 
Sammelwerken (Leonhard et al 2002) und Übersichtsdarstellungen (Burger & 
Luginbühl 2014; Bucher 2014) präsentierten Forschungsbefunde zeigen, konnte 
auf diese Art eine ganze Reihe wichtiger Einsichten in die Medienspezifik von 
Sprache und Kommunikation gewonnen werden. Mit Ausnahme einiger Studien 
zur Online-Kommunikation (z. B. Bucher 2009; Thimm, Einspänner & Dang-Anh 
2012; Dang-Anh & Rüdiger 2015) sind begrenzte, exemplarische Fallstudien 
auch heute noch die Standardforschungsstrategie. Die mit einem solchen 
Forschungsansatz gewonnenen Einsichten sind allerdings meistens für die 
Sprachwissenschaft deutlich relevanter als für die Medien- und Kommunika- 
tionswissenschaft. Deren Erkenntnisinteresse ist weniger auf exemplarische 
Einzelbefunde gerichtet, als vielmehr auf strukturelle Befunde über größere 
Datenmengen, auf Rezeption und Wirkungen medialer Kommunikation oder 
Erklärungen für die Entstehung massenmedialer Kommunikationsbeiträge. 
Eine Ausnahme stellen in dieser Hinsicht die wenigen Ansätze einer com- 
puterlinguistischen Medienforschung dar: Sowohl für die Datenvorhaltung in 
Form von digitalen Korpora als auch für die Datenanalyse kommen informa- 
tionstechnologische Infrastrukturen zum Einsatz (Beißwenger 2007). Aller- 
dings haben die Analysepotentiale der Computerlinguistik die medienwissen- 
schaftliche Forschung bislang erst ansatzweise befruchtet und damit in der 
Medienforschung auch keine Notwendigkeit zur Etablierung entsprechender 
Infrastrukturen geschaffen. Einer der wesentlichen Gründe dafür liegt in der 
Unverträglichkeit zweier Forschungslogiken: Während die Computerlinguistik 
für die Bearbeitung ihrer Fragestellungen auf annotierte Korpora und Meta- 
daten angewiesen ist, bestehen die Forschungsgegenstände in der Medien- 
und Kommunikationswissenschaft gerade aus unstrukturierten Datensamm- 
lungen, die auch noch verschiedene nicht-sprachliche bedeutungsrelevante 
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Modi enthalten wie Abbildungen, Farben, Design, Musik oder Typografie. Eine 
Annotierung solcher unstrukturierter Datenbestände würde den Zeithorizont 
medien- und kommunikationswissenschaftlicher Forschung sprengen, so dass 
eine Integration computerlinguistischer Verfahren in der Medienforschung bis- 
lang eher die Ausnahme geblieben ist. Man kann vor dem Hintergrund der 
skizzierten historischen Entwicklung die These vertreten, dass ein Ausbau der 
Forschungsinfrastruktur eine Voraussetzung dafür ist, dass die sprach- und 
diskursanalytische Medienforschung Anschluss an die sozialwissenschaftliche 
Medienforschung findet, denn um zu strukturellen Befunden über größere 
Datenmengen zu gelangen, bedarf es nicht nur einer Erweiterung des 
Forschungs-Know-hows, sondern auch einer IT-Infrastruktur, die computer- 
basierte Analysen ermöglicht. 

Eine frühe Ausnahme hinsichtlich einer Verbindung medienwissenschaft- 
licher, sprachwissenschaftlicher und computergestützter Verfahren ist das an 
der Universität Tübingen Anfang der 1990er Jahre durchgeführte DFG-Projekt 
Die Sprache der ersten deutschen Wochenzeitungen im 17. Jahrhundert. In diesem 
Projekt wurde das zu analysierende Textkorpus händisch aus den Original- 
texten erfasst, in eine relationale Datenbank überführt und lexikalisch, 
syntaktisch und funktional annotiert. Dadurch war es möglich, für die fünf 
untersuchten Zeitungen Konkordanzen zu erstellen und die Zeitungstexte 
computergestützt in Bezug auf Wortschatz, Syntax, Textstrukturen und Dar- 
stellungsformen zu analysieren. Auf diese Weise ließen sich qualitative Fallstu- 
dien und quantitative Auswertungen in einem für die damalige Zeit außerge- 
wöhnlichen Forschungsdesign integrieren (Fritz & Straßer 1996; Schröder 
1995). Die Infrastruktur des Projektes hat sich dabei auf Einzelrechner mit einer 
Datenbank und einem Textverarbeitungsprogramm beschränkt. 


2 Digitalisierung als neue Herausforderung 

für wissenschaftliche Infrastrukturen in 

der Medienforschung 
Mit der Digitalisierung haben sich die Anforderungen an eine IT-Infrastruktur 
auch in den Geistes- und Kulturwissenschaften grundlegend geändert. So heißt 


es in der Stellungnahme der Kommission für IT-Infrastruktur für 2016-2020 der 
Deutschen Forschungsgemeinschaft in Bezug auf die Geisteswissenschaften: 


Datengetriebene Wissenschaft führt zu neuen Erkenntniswegen. Neben den Möglichkeiten 
zur Zugänglichmachung von Artefakten, z.B. in Form der Erfassung alter Schriften, 
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Bilder etc., bieten die Analyse- und Auswertungsmethoden zur schnellen Verarbeitung 
riesiger Datenmengen - Stichwort „Big Data“ — neue Mittel zum Erkenntnisgewinn. (DFG 
2016: 5) 


Auch der Wissenschaftsrat sieht eine Transformation der Forschungsinfra- 
struktur 


von tradierenden und Fachinformationen bevorratenden Hilfseinrichtungen zu Inkubato- 
ren für neue und innovative wissenschaftliche Fragestellungen aufgrund von Forschungs- 
daten, die durch diese Infrastrukturen selbst erst erzeugt werden (Wissenschaftsrat 2011). 


Der Strategy Report on Research Infrastructures von 2016 des European Strategy 
Forums on Research Infrastructures (ESFRI) der EU-Kommission bestätig diese 
Entwicklung auch im internationalen Vergleich: „The increased availability of 
digital resources and the development of advanced digital methods for research 
in the Humanities have heralded remarkable changes in the scale and scope 
of research in these disciplines.“ (ESFRI 2016: 170) 

Für die Medien- und Kommunikationswissenschaft bedeutet diese Ent- 
wicklung in erster Linie die Verfügbarkeit von größeren, digitalen Datenbestän- 
den, die zuvor nur in analoger Form als Texte (Printprodukte, Transkripte) oder 
audio-visuelle Aufzeichnungen vorlagen. Allerdings erfolgt die Analyse digita- 
ler Gegenstände bis heute nahezu ausschließlich durch händische Kodierung. 
Digitale Auswertungsmethoden - beispielsweise durch die Statistik-Software 
SPSS - kommen erst nach der händischen Kodierung zum Einsatz. Eine Erset- 
zung oder zumindest eine Ergänzung der händischen Kodierung könnte die 
Kooperation zwischen computerlinguistischen und sozialwissenschaftlichen 
Ansätzen leisten. Die dafür erforderliche Entwicklung automatisierter, compu- 
terbasierter Analysemethoden würde allerdings auch neuartige Anforderungen 
an eine Forschungsinfrastruktur stellen. Im Hinblick auf eine solche integra- 
tive Entwicklung diagnostiziert das Strategie-Forum der Europäischen Kom- 
mission bereits eine Auflösung der Grenzen zwischen verschiedenen Wissen- 
schaftskulturen: 


On the one hand, wide corpora of digitised texts allow Humanities to use quantitative 
methods that were previously confined to social sciences. On the other hand, a “linguistic 
turn” of the social sciences, makes room for new types of discourse and conversation 
analysis. Media Studies, which connect the Social Sciences and Humanities, are an elo- 
quent example of that evolution. In particular, the scientific study of the web, which has 
become an integrated part of society, culture, business, and politics, is a burgeoning field 
of research activity, with enormous potential for the contribution of SSH to societal chal- 
lenges relating to communication or security. (ESFRI 2016: 172) 


Potentiale und Anforderungen an Forschungsinfrastrukturen werden deut- 
licher erkennbar, wenn man sie in Funktionsbereiche unterteilt, wie sie auch 
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von Seiten der Forschungsförderung untergliedert werden (vgl. Wissenschafts- 
rat 2011, ESFRI 2016). 


1. Großgeräte. z.B. Teilchenbeschleuniger, Teleskope, große Laborgeräte; 

2. Forschungsinformationsinfrastrukturen, wie Sammlungen, Archive, Digitale Daten- 
banken; 

3. informationstechnische Infrastrukturen oder e-Infrastrukturen, wie Groß- und Hoch- 
leistungsrechner, Hochleistungskommunikations- und Rechnerverbünde; 

4. soziale Forschungsinfrastruktur, wie Begegnungsräume des diskursiven Austauschs 
von aktuellen und der Entwicklung von neuen Forschungsfragen. 


In seiner Bestandsaufnahme, die sich auf eine Umfrage unter 99 Fachgesell- 
schaften der Sozial- und Geisteswissenschaften stützt, kommt der Wissen- 
schaftsrat zu dem Ergebnis, dass es sich bei über 90% der infrastrukturellen 
Einrichtungen um digitale Ressourcen wie Datenbanken oder Textkorpora han- 
delt, und weniger als 10% auf technische und räumliche Ressourcen - also 
Großgeräte - entfallen. 

Dass die Medienwissenschaft ein Bindeglied zwischen den Humanities und 
den Sozialwissenschaften sein kann, drückt sich auch darin aus, dass für die 
Medienforschung sowohl digitale Ressourcen als auch Großgeräte neue For- 
schungsfragen eröffnen können. Digitale Ressourcen sind z.B. erforderlich für 
die Speicherung und Erschließung großer Mediendaten aus Printmedien oder 
audiovisuellen Medien. Insbesondere die Online-Forschung setzt voraus, dass 
große, bereits digital vorliegende Internet-Datenbestände für eine langfristige 
Erschließung vorgehalten werden können. Eine Datenbank im Fach Medien- 
wissenschaft der Universität Trier von Tweets zu rund 200 Stichwörtern, ge- 
sammelt über einen Zeitraum von zwei Jahren, umfasst beispielsweise rund 
60 Millionen Tweets mit einem Speichervolumen von mehreren 100 GB. Die Er- 
schließung und Auswertung dieser Daten erfordert eine digitale Infrastruktur 
mit einer entsprechenden Auswertungssoftware und Speichermedien für die 
Vorhaltung der Datenbestände, was von einem einzelnen Fach nur in Koopera- 
tion mit zentralen Infrastruktureinrichtungen, wie einem Rechenzentrum, zu 
leisten ist und entsprechende Folgekosten verursacht. Ein Ausbau der Infra- 
struktur in den Geistes- und Sozialwissenschaften, der nachhaltig sein soll, 
erfordert dementsprechend über die technische Anschaffung hinaus zusätz- 
liche Personalmittel für Betrieb und Betreuung sowie etatisierte Finanzierungs- 
mittel für Folgekosten wie Server oder Speicherplatz. 

Im Folgenden werden Herausforderungen für eine Forschungsinfrastruktur 
in der Medienforschung für zwei Forschungsbereiche vorgestellt und diskutiert: 
für den Bereich der großgeräte-basierten Datenerhebung und den Bereich der 
Datenablage und -vorhaltung. 
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3 Infrastrukturen für die Datenerhebung 


3.1 Großgeräte für die empirische Medienforschung: 
Probleme der Finanzierung 


Großgeräte für experimentelle Laborforschung sind in der Medien- und Kommu- 
nikationswissenschaft ebenso wie in den Sozialwissenschaften insgesamt bis- 
lang eher die Ausnahme geblieben. Das belegt auch die Verteilung der ent- 
sprechenden Fördermittel. Trotz der auf nationaler und internationaler Ebene 
erhobenen Forderung nach einem Paradigmenwechsel in den Forschungs- 
strategien von Sozial- und Geisteswissenschaften ist die finanzielle Förderung 
in diesen Disziplinen immer noch weit hinter den Natur-, Ingenieurs- und 
Lebenswissenschaften zurückgeblieben. Das zeigt sich, wenn man die Bewilli- 
gungen in den beiden wichtigsten nationalen Förderprogrammen für Groß- 
geräte nach Fachdisziplinen vergleicht: das Förderprogramm Forschungsgroß- 
geräte der DFG nach Art. 91b GG und das Programm Großgeräte der Länder. 
Von den über 1.500 bewilligten Forschungsgroßgeräten durch die DFG 
stammen gerade acht Anträge aus den Sozial- und Geisteswissenschaften, bei 
den Großgeräten der Länder waren es 89 von 1389. Von den über 800 Millionen 
Euro an Förderung für Großgeräte entfallen 2,5 Millionen auf die Sozial- und 
Geisteswissenschaften und beispielsweise über 300 Millionen Euro auf die 
Naturwissenschaften (DFG: Fünf Jahre neue Großgeräteprogramm 2007-2011: 
21, Tab. 5 und 6). Natürlich ist diese Diskrepanz mit den unterschiedlichen 
Anforderungen an eine Forschungsinfrastruktur in den verschiedenen 
Wissenschaftskulturen zu erklären. So werden in den Geistes- und Sozial- 
wissenschaften keine Massenspektrometer, Laserscanning-Mikroskope oder 
Rasterelektronenmikroskope mit einem Anschaffungswert von mehreren 
hunderttausend Euro benötigt. Die von der DFG festgelegte Bagatellgrenze für 
Großgeräte — ganz unabhängig von verschiedenen Forschungstraditionen — 
von 200.000 Euro begünstigt jedoch die Fachdisziplinen, die solche aufwen- 
digen Geräte benötigen, gegenüber den Geistes- und Sozialwissenschaften, 
deren infrastrukturelle Anforderungen mit deutlich geringeren Summen befrie- 
digt werden könnten. In seinen Empfehlungen zur Forschungsinfrastrukturen in 
den Geistes- und Sozialwissenschaften fordert dementsprechend der Wissen- 
schaftsrat, deren Besonderheiten gegenüber den Naturwissenschaften bei der 
Förderung zu berücksichtigen und „von Bagatellgrenzen bei Investitionskosten 
für die Geistes- und Sozialwissenschaften abzusehen“ (Wissenschaftsrat 2011: 11). 
Neben der Bagatellgrenze liegt ein weiteres Problem für die Großgeräteaus- 
stattung sozialwissenschaftlicher Disziplinen darin, dass ihre Anträge bei der 
DFG nach denselben Kriterien beurteilt werden, wie die aus den klassischen 
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Großgeräte-Disziplinen. Das betrifft beispielsweise die Bewertung der Publikati- 
onsleistungen von Antragstellern: Wahrend in den Naturwissenschaften oder 
den Lebenswissenschaften die Zeitschriftenpublikation den Normalfall darstellt, 
sind in den Sozial- und Geisteswissenschaften auch Buch- und Sammelband- 
Veröffentlichungen etablierte Formen der internen Wissenschaftskommunika- 
tion. Solange letztere in der Publikationsbewertung niedriger eingeschätzt wer- 
den, bleiben die entsprechenden Fachtraditionen benachteiligt. Während im 
Zusammenhang von e-Learning-Initiativen Großgeräte bei der DFG erfolgreich 
beantragt werden konnten, ist das für sozialwissenschaftliche Laborausstat- 
tungen immer noch schwierig: da experimentelle Laborforschung in der Medien- 
und Kommunikationswissenschaft nicht zu den zentralen Forschungsfeldern 
gehört, bedarf es für die Antragsteller besonderer Anstrengungen, ihre Kompe- 
tenzen in diesem Bereich nachzuweisen. Eine weitere Schwierigkeit der An- 
tragstellung liegt in der Großgeräte-Definition der DFG: „Ein Großgerät ist die 
Summe der Geräteteile einschließlich Zubehör, die für einen vorgesehenen Be- 
triebszustand eine Funktionseinheit bildet“ (http://www.dfg.de/foerderung/ 
programmej/infrastruktur/wgi/). Der Nachweis, dass ein Rasterelektronen- 
mikroskop in der Geophysik im „vorgesehenen Betriebszustand eine Funk- 
tionseinheit bildet“, ist gegenüber einer komplexen und mehrteiligen Labor- 
ausstattung sicher einfacher zu führen. Eine solche Laborausstattung zeichnet 
sich beispielsweise dadurch aus, dass sie aus mehreren Komponenten zusam- 
mengesetzt sein kann, die in einer zeitlichen und variablen Abfolge zum Ein- 
satz kommen. So kann bereits die Datenerhebung aus verschiedenen Schritten 
bestehen und verschiedene Einzelgeräte erfordern: Aufmerksamkeitsmessungen 
mittels Eye-Tracker, Befragung am Bildschirm, Leitfadeninterviews mit audio- 
visueller Dokumentation. Entsprechend der experimentellen Forschungslogik 
besteht eine Laborausstattung in der Regel aus einem Datenerhebungssystem, 
einem Auswertungs- und Aufbereitungssystem, die nicht alle gleichzeitig eine 
Funktionseinheit bilden, sondern sequentiell eingesetzt werden: erst die Daten- 
erhebung, dann die Aufbereitung und schließlich die Datenauswertung. Die 
geschilderten Unverträglichkeiten zwischen Fördervorgaben und Forschungs- 
praxis sind charakteristisch für eine ganze Reihe sozial- und kulturwissen- 
schaftlicher Großgeräteanträge, weshalb diese gegenüber naturwissenschaft- 
lichen Anträgen ein strukturell bedingtes hohes Ablehnungsrisiko aufweisen. 


3.2 Potentiale der Medienforschung mit Großgeräten: 
Beispiel Rezeptionslabor 


Fragen des Verstehens und der Verständlichkeit haben in der Sprachwissen- 
schaft nicht nur unter theoretischen Gesichtspunkten eine wichtige Rolle ge- 
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spielt, sondern bereits sehr früh auch im Hinblick auf eine Anwendungsorien- 
tierung sprachwissenschaftlicher Forschung (Muckenhaupt 1980; Feuerstein & 
Heringer 1987; Spillner 1995). Experimentelle Forschung dazu hat aber in der 
Linguistik ebenso wenig stattgefunden wie in der an Medienwirkungen interes- 
sierten Massenkommunikationsforschung. Während erstere Verstehen und 
Verständlichkeit kommunikationsanalytisch und materialbezogen untersucht, 
rekonstruiert die Massenkommunikationsforschung Medienwirkungen mittels 
einer Integration von Inhaltsanalyse und Umfragedaten. Ein Rezeptionslabor 
schafft die Voraussetzung, die Interaktion zwischen einem medialen Stimulus 
und einem Rezipienten experimentell und direkt zu erforschen und damit die 
Grundlage sowohl für Medienwirkungsbefunde als auch für Einsichten in Ver- 
stehensprozesse oder Kriterien der Verständlichkeit zu schaffen. Am Beispiel 
des Rezeptionslabors der Trierer Medienwissenschaft soll exemplarisch gezeigt 
werden, welche Potentiale eine entsprechende Großgeräte-Infrastruktur sowohl 
für die Grundlagenforschung als auch für die angewandte Forschung schaffen 
kann. 

Das Rezeptionslabor der Trierer Medienwissenschaft wurde in der Erstaus- 
stattung 2003 auf Grundlage eines Großgeräteantrags nach Art. 91b GG an die 
DFG angeschafft und 2010 mit Mitteln des Landes Rheinland-Pfalz moderni- 
siert. Die Antragstellung erfolgte interdisziplinär unter Beteiligung der Medien- 
wissenschaft, der Soziologie, der Politikwissenschaft, der Kunstgeschichte, der 
Wirtschaftswissenschaft und der Ethnologie. Die Ausstattung umfasst zwei 
Blickaufzeichnungskomponenten: eine Remote-Ausstattung für bildschirm- 
basierte Blickaufzeichnungen und eine sogenannte „Brille“ (glasses) für 
szenische Blickaufzeichnungen. Letztere wurde für Blickaufzeichnungen 
beim Zeitungs- und Zeitschriftenlesen (Bucher, Schumacher & Duckwitz 2007), 
für die Rezeption wissenschaftlicher Vorträge mit Präsentationen (Bucher, 
Niemann & Krieg 2010) sowie für Rezeptionsuntersuchungen von Museums- 
besuchen genutzt. Die Remote-Ausstattung wurde eingesetzt für Rezeptions- 
studien zu Internetseiten, zu Filmen und Videos (Bucher 2011; Bucher, 
Schumacher & Duckwitz 2012) zu Wissens-Comics (Bucher & Boy 2018) oder 
zu digitalisierten Zeitungs- und Zeitschriftenausgaben (Bucher & Schumacher 
2006, Gehl 2013). Einige der Studien waren als Grundlagenforschung angelegt, 
um beispielsweise für multimodale Stimuli die Integration verschiedener Kom- 
munikationsmodi wie Sound, Musik, Sprache, Text oder Design im Rezeptions- 
prozess zu erforschen (Bucher & Niemann 2012; Bucher & Schumacher 2006; 
Bucher 2012, 2017). Andere Studien waren stärker anwendungsorientiert ausge- 
richtet, beispielsweise Usability-Studien zu verschiedenen Online-Angeboten 
(Bucher 2002) und interaktiven Darstellungsformen (Schumacher 2009), oder 
Studien zur Ermittlung des Wissenstransfers durch verschiedene Zeitschriften- 
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typen, wissenschaftliche Vorträge (Bucher & Niemann 2015) oder Informations- 
grafiken (Gehl 2013). Die grundlagentheoretischen Erkenntnisse sowie einige 
der anwendungsorientierten Forschungsbefunde sind in einem Sammelband 
dokumentiert, der auch als Grundlage für weitere Forschungsarbeiten dient 
und als Standardwerk für eine interaktionsanalytische Rezeptionsforschung 
gelten kann (Bucher & Schumacher 2012). Neben der Forschung wurde das 
Rezeptionslabor auch in der Lehre eingesetzt, um die Studierenden der Medien- 
wissenschaft einerseits mit den experimentellen Methoden vertraut zu machen, 
damit sie diese in eigenständigen Forschungsprojekten anwenden können, und 
um andererseits berufsbezogene Qualifikationen zu vermitteln, die auf Berufs- 
felder in der kommerziellen Online- oder Medienforschung vorbereiten. 

Geräteinfrastruktur erfordert allerdings auch eine entsprechende Personal- 
struktur: Neben der technischen Betreuung der Anlage muss auch gewähr- 
leistet sein, dass das entsprechende Know-how für die Entwicklung von 
zielführenden Forschungsdesigns, die Datenerhebung und Auswertung, die 
Behebung von Störungen und Softwareabstürzen, die Expertenkommunikation 
mit dem Geräteanbieter, die Schulung von Studierenden und Forschern sowie 
für die Marktbeobachtung hinsichtlich Geräteinnovationen vorgehalten wer- 
den kann. Da sozial- und kulturwissenschaftliche Einrichtungen oder Abteilun- 
gen in der Regel gerade nicht mit Personal für derartige Aufgaben ausgestattet 
sind, bleibt es schwierig, außerhalb von geförderten Projekten mit entspre- 
chenden Personalmitteln die Funktionsfähigkeit eines Labors konstant zu er- 
halten. Insofern generiert ein Labor den Zwang zur kontinuierlichen Einwer- 
bung von Projektmitteln oder aber zur Zusatzbelastung des festangestellten 
Personals. Die Kontinuität der empirischen Rezeptionsforschung in Trier sowie 
die Aufrechterhaltung der Funktionsfähigkeit des Labors konnte nur durch 
eine Kombination dieser beiden Strategien über nunmehr fast 15 Jahre sicher- 
gestellt werden. Eine personelle Unterversorgung oder eine Verlagerung der 
genannten Aufgaben auf studentische Hilfskräfte führt in der Regel früher oder 
später zu einer Auflösung des Labors. 

Eine vorbildliche institutionalisierte Lösung dieser Probleme bietet das 
Humanities Lab an der Universität Lund, das in seiner Art einzigartig in Europa 
ist. Das Labor ist eine eigenständig zentrale Abteilung der geisteswissenschaft- 
lichen und der Theologischen Fakultät mit eigener Leitung und Budgetierung 
und mit 25 Beschäftigten in Forschung und Verwaltung (Stand: Frühjahr 2017). 
Die Funktion des Labors ist es „to promote the diversification of research in 
the Humanities and Theology“, es soll als offene Einrichtung Forscher aus ver- 
schiedenen geisteswissenschaftlichen Disziplinen dabei unterstützen, tradi- 
tionelle und innovative Forschungsmethoden zu kombinieren, und es soll als 
Interface fungieren zwischen „academia and external actors in industry and 
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education“ (http://www.humlab.lu.se/en/about/policy-documents/ letzter Zu- 
griff: 24.11. 2017). In der Selbstdarstellung heißt es: 


The Humanities Lab is an interdisciplinary department for research technology and train- 
ing at the Joint Faculties of Humanities and Theology. We host technology, methodologi- 
cal know-how, archiving expertise, and a wide range of research projects. Lab activities 
are centered around the humanities with research targeting issues of communication, 
culture, cognition and learning, but many projects are interdisciplinary and conducted in 
collaboration with the social sciences, medicine, the natural sciences, engineering, and 
e-Science (http://www.humlab.lu.se/en/about/, letzter Zugriff: 6.11. 2017). 


Neben einer Blickaufzeichnungs-Ausstattung mit allen derzeit relevanten 
Technologien umfasst das Labor eine Artikulographie zur Erforschung der Laut- 
produktion, Systeme für Hautwiderstands-, Herzschlag- und Atemmessungen, 
ein Elektroenzephalogramm zur neurologischen Messung von Hirnaktivitäten, 
ein Motion-Capture-System zur Untersuchung von Bewegungen und Gesten so- 
wie ein Virtual-Reality-Studio. Mit dieser Ausstattungsbreite sind nahezu alle 
rezeptiven Prozesse menschlicher Kommunikation sowohl in Face-to-Face- als 
auch in Face-to-Interface-Konstellationen erfassbar. Durch die strukturelle Ver- 
ankerung des Labors als zentrale Einrichtung sowie durch regelmäßige Kurs- 
angebote ist sichergestellt, dass seine Funktionalitäten auch von Wissenschaft- 
lern genutzt werden können, die bislang keine experimentelle Forschung 
betrieben haben. Der wissenschaftliche Output des Labors sowie sein interna- 
tionaler Ruf als Ausbildungs- und Tagungsstätte belegen die Produktivität des 
Konzeptes. Aufgrund seiner profilierten Stellung ist das Lunder Humanities 
Lab inzwischen auch zu einem Kooperationspartner der entsprechenden Geräte- 
hersteller geworden und kann diese dabei unterstützen, wissenschaftliche An- 
forderungen frühzeitig in die Geräte-Entwicklung einzubeziehen. 

Am Beispiel des Lunder Humanities Lab wird deutlich, dass Infrastruktur- 
maßnahmen nicht auf die technische Ausstattung beschränkt werden können, 
sondern personelle Ressourcen und strukturelle Reorganisationen umfassen 
müssen. Solange die Geistes- und Sozialwissenschaften auch in dieser Hinsicht 
den Natur- und Lebenswissenschaften hinterherhinken, wird auch eine tech- 
nische Aufrüstung durch Großgeräte nicht zu den gewünschten Forschungs- 
erfolgen führen können. 


4 Datenablage: Qualitätssicherung durch 
Standardisierung 


Wer in der Medien- und Kommunikationswissenschaft heute qualitative Rezep- 
tionsforschung betreibt, der archiviert und dokumentiert seine Daten in aller 
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Regel nach eigenem Ermessen und nach eigenen Prinzipien. Standardisierun- 
gen tiber Projekt- oder Lehrstuhlgrenzen hinaus sind die Ausnahme. Was das 
GESIS - Leibniz-Institut für Sozialwissenschaften fiir die quantitative Sozial- 
forschung leistet, fehlt in der qualitativen Rezeptionsforschung bislang: die 
langfristige Sicherung von Forschungsdaten, ihre einheitliche Dokumentation 
nach festen Standards und die Bereitstellung der Daten für Forschung und 
Öffentlichkeit (vgl. GESIS - Leibniz-Institut für Sozialwissenschaften e. V. o. J.). 
Dass darin ein Manko gesehen werden muss, liegt auf der Hand: Der zuneh- 
mende Druck des Relevanznachweises gegenüber Entscheidungsträgern aus 
Wissenschaft und Politik und nicht zuletzt auch der breiten Öffentlichkeit trifft 
die qualitative Forschung nicht nur in gleicher Weise wie ihr quantitatives Pen- 
dant. Die Problematik ist hier sogar insofern virulenter, als auch innerhalb der 
Scientific Community jede Forschung, die das Verstehen von Phänomenen im 
primären Fokus hat und nicht mit Begriffen wie „signifikant“ oder „repräsenta- 
tiv“ aufwarten kann, ihre Daseinsberechtigung stets aufs Neue belegen muss. 

Nichts läge also näher, als durch Standardisierungsbemühungen auf der 
Ebene der Dokumentation, Ablage und Zugänglichkeit von Forschungsdaten der 
qualitativen Rezeptionsforschung dem zentralen Grundprinzip wissenschaft- 
lichen Arbeitens, der intersubjektiven Nachvollziehbarkeit von Forschungs- 
prozessen und -ergebnissen (Stichwort Replizierbarkeit, vgl. auch Huschka & 
Oellers 2013: 10) zu entsprechen und damit neben der Sicherung von For- 
schungsqualität auch noch der gesellschaftlichen Forderung nach Transparenz 
und Zugänglichkeit von Daten nachzukommen. Dass in diesem Bereich den- 
noch momentan in Deutschland keine Bestrebungen sichtbar sind, hängt mit 
den etablierten Arbeitsweisen und den Untersuchungsgegenständen im 
Bereich der qualitativen Rezeptionsforschung zusammen: Die Forschungs- 
einheiten sind in der Regel klein. Anders als in den Naturwissenschaften sind 
Arbeitsgruppen mit mehreren Wissenschaftlern und einer Reihe von Doktoran- 
den und Studierenden die absolute Ausnahme. Die Arbeit findet auf der Ebene 
von Einzellehrstühlen mit wenigen Mitarbeitern statt, größere Projektverbün- 
de, Forschergruppen oder Netzwerke, die sich mit vergleichbaren Theorien und 
Methoden befassen, finden sich in der qualitativen Rezeptionsforschung nicht. 
Das bringt es mit sich, dass auch die Gegenstände der Forschung häufig nur 
von einem Lehrstuhl oder einem Forschungsprojekt zu einem bestimmten Zeit- 
punkt bearbeitet werden und an anderer Stelle und zu anderen Zeitpunkten 
nur bedingt Interesse an der gleichen Thematik besteht. 

Hinzu kommt ein technischer Aspekt, der mit Blick auf die Forschungsge- 
genstände und die Forschungsmethoden deutlich wird: Qualitative Rezeptions- 
forschung im Bereich der Medien- und Kommunikationswissenschaft hat in 
aller Regel die Rezeption von sehr komplexen, multimodalen Medienstimuli im 
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Blick, seien das Medien-Apps mit Text, Bild, Video und Animationselementen, 
seien es klassische audiovisuelle Produktionen, wissenschaftliche Präsenta- 
tionen, Comics oder Infografiken. Schon die Langzeitdokumentation dieser 
Stimuli an sich kann eine Herausforderung sein - man denke etwa an die Prob- 
lematik der Sicherung und langfristigen Nutzbarmachung von Medien-Apps 
heutiger, gängiger Plattformen sowie von Videoformaten oder an den Doku- 
mentationsaufwand, um etwa einen wissenschaftlichen Vortrag mit Power- 
Point langfristig intersubjektiv nachvollziehbar zu machen (Video des Vortrags, 
Folien, eventuell zusätzliches Video zur Dokumentation der Atmosphäre im 
Vortragsraum). Die Dokumentationsschwierigkeiten sind sogar noch erheb- 
licher, wenn man die üblichen Forschungsmethoden betrachtet: Formen der 
Befragung, Beobachtungen, mitunter Blickaufzeichnungen. Das Ergebnis des 
Einsatzes dieser Methoden sind in aller Regel Audio- und/oder Video-Dateien 
sowie im Falle der Blickaufzeichnung zudem große Datenmengen in Formaten, 
die nur mittels Spezialsoftware genutzt werden können. Um der Gesellschaft 
die Ergebnisse solcher Forschung nachvollziehbar zur Verfügung stellen zu 
können, müsste eine Infrastruktur geschaffen werden, die dazu in der Lage ist, 
die unterschiedlichen Ergebnisdaten der Forschung und die gesicherten Stimuli 
präzise miteinander in Bezug zu setzen. Ein Beispiel: Aus der qualitativen 
Rezeptionsforschung zu wissenschaftlichen Präsentationen mittels PowerPoint 
weiß man, dass im Falle des Einsatzes einer reinen Textfolie das abschnittswei- 
se Einblenden des Textes zur Steuerung der Rezeption sehr viel besser geeignet 
ist als das einmalige Einblenden der gesamten Textfolie (vgl. Bucher & 
Niemann 2012: 293-294). Wollte man den Forschungsprozess, der zu dieser Er- 
kenntnis führte, transparent und intersubjektiv nachvollziehbar mittels eines 
Dokumentationssystems darlegen, so müsste dieses System folgende Anfor- 
derungen erfüllen: 


1. Es müsste den Anwendern zu denjenigen Versuchspersonen, die in der entsprechen- 
den Forschung zitiert werden, Videodaten der Vortragsaufzeichnungen vorspielen und 

2. Videos der entsprechenden Blickverläufe dieser Personen bereitstellen sowie 

3. diese beiden Videoquellen an den relevanten Stellen synchronisieren können. 


In anderen Fällen wäre eine solche Materialfülle und Synchronisationsleistung 
noch mit Interviewdaten aus Audiodateien oder Textdokumentationen zu er- 
gänzen. 

Wenn man sich die typischen Forschungsgegenstände der qualitativen 
Rezeptionsforschung einmal im Detail ansieht, wird schnell deutlich, dass 
die nachvollziehbare Bereitstellung von Forschungsergebnissen für die Gesell- 
schaft nicht nur auf technischer Ebene zu Herausforderungen führt. Egal ob 
Nachrichtenbeiträge aus dem Fernsehen, Tweets oder Infografiken in Zeit- 
schriften: Urheber- und Nutzungsrechte machen die schnelle und einfache 
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Bereitstellung der Forschungsgegenstände, etwa in dem oben skizzierten 
Dokumentationssystem, sehr schwierig. 

Von diesen forschungsstrukturellen, technischen und rechtlichen Aspekten 
einmal abgesehen, steht die grundsätzliche Frage im Raum, ob die mit einer 
Standardisierung einhergehenden Vorteile den vermeintlichen zeitlichen und 
damit auch finanziellen Mehraufwand im Forschungsprozess tatsächlich recht- 
fertigen. Dahinter steht letztlich die Überlegung, ob die Replizierbarkeit von 
Forschungsergebnissen, der in der naturwissenschaftlichen und generell in der 
quantitativen Forschung so große Bedeutung zugemessen wird, in der qualita- 
tiven Rezeptionsforschung tatsächlich den gleichen Stellenwert haben muss, 
wenn die Forschungsergebnisse hier eben nicht den Anspruch eines allgemein- 
gültigen Gesetzes oder gesamtgesellschaftlicher Repräsentativität formulieren. 

Im Folgenden soll ein Weg zur Standardisierung der Sicherung und Doku- 
mentation von Forschungsdaten in der qualitativen Rezeptionsforschung be- 
schrieben werden, der den oben dargelegten Einwänden und Schwierigkeiten 
Rechnung trägt.! 


4.1 Kleine Forschungseinheiten: Annäherung durch 
Standardisierung 


Die strukturellen Gegebenheiten im Bereich der qualitativen Rezeptions- 
forschung mögen zwar die Einstiegsschwelle zur Standardisierung vergrößern, 
sind aber bei genauerer Betrachtung ein zentrales Argument für eine solche 
Entwicklung: Kleine Forschungsprojekte bzw. Einzelwissenschaftler sind 
schon aus Gründen der Kapazität nicht in der Lage, Stimuli oder Fragestellun- 
gen anderer Akteure im gleichen Feld — etwa in Form replizierender Untersu- 
chungen - in den Blick zu nehmen, wenn die fremden Daten nicht einfach 
zugänglich sind und nicht in einer Form vorliegen, die mit den eigenen eta- 
blierten Arbeitsroutinen kompatibel ist. Insofern können Standardisierungs- 
bemühungen als aussichtsreiche Maßnahme gesehen werden, um die Vernet- 
zung und den Austausch auf der Inhaltsebene innerhalb der qualitativen 
Rezeptionsforschung nachhaltig zu verbessern und damit die Forschungsquali- 
tät zu steigern. 


1 Da die skizzierten rechtlichen Aspekte ein gesamtgesellschaftliches Problemfeld darstellen, 
auf dessen Relevanz die Wissenschaft zwar mit Ausdauer und Nachdruck an geeigneter Stelle 
im politischen System hinweisen kann und sollte, für das sie jedoch durch eigenes Handeln 
im Forschungsalltag jenseits des schlichten Verzichts der wissenschaftlichen Auseinanderset- 
zung mit einer Vielzahl von medialen Angeboten keine Lösung herbeiführen kann, wird es im 
Folgenden nicht weiter aufgegriffen. 
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4.2 Technische Aspekte: Entwicklung in Stufen 


Bei der intersubjektiv nachvollziehbaren langfristigen Sicherung von Medien- 
stimuli und Forschungsergebnissen in Form von Audio-, Video- oder Blick- 
daten ist es sinnvoll, mindestens zwei Nutzergruppen zu differenzieren und in 
Entwicklungsstufen zu denken. Zunächst ist die Gruppe der Nutzer innerhalb 
der Scientific Community von der Nutzergruppe „breite Öffentlichkeit“ zu un- 
terscheiden. Bezieht man sich auf erstere und eine eher mittelfristige Zeitperio- 
de, so sind die Sicherungsprobleme bei genauerer Betrachtung durchaus über- 
schaubar: Da jeder Einzelforscher in seinem Bereich auch bisher schon mit 
entsprechenden Medienstimuli umgeht und einschlägige Methoden der Befra- 
gung und Beobachtung nutzt, ist die notwendige Nutzungsexpertise und die 
entsprechende (Spezial-)Software in der Regel ohnehin vorhanden. Eine Stan- 
dardisierungslösung müsste daher in puncto Datenspeicherung/Bereitstellung 
in erster Linie unkompliziert mit Daten in den einschlägigen (Spezial-)Forma- 
ten bestückt werden können (etwa per Web-Upload), müsste diese unkom- 
pliziert durchsuchbar machen und sie interessierten Forscherkollegen ohne 
großen Aufwand wieder zur Verfügung stellen können.? 

Wenn es um die Nutzergruppe „breite Öffentlichkeit“ geht, greifen die 
oben beschriebenen Schwierigkeiten in vollem Umfang: Hier ist weder von 
Fachexpertise im Umgang mit Spezialdaten noch von entsprechender tech- 
nischer Ausstattung auszugehen. Dementsprechend wäre der gesellschaft- 
lichen Forderung nach transparenter und nachvollziehbarer Darstellung von 
Forschungsergebnissen nur mittels eines neu zu entwickelnden Systems 
nachzukommen, das in der oben beschriebenen Form in der Lage ist, For- 
schungsdaten aus unterschiedlichen Quellen in unterschiedlichen Formaten 
zusammenzuführen und in einer gängigen technischen Umgebung (Beispiel: 
Webbrowser) ohne Spezialkenntnisse nutzbar zu machen. Ansätze in einer 
solchen Richtung gab es bereits, beispielsweise im Rahmen des Forschungs- 
projekts Interactive Science, auch wenn der Fokus dort auf der Zusammen- 
führung und Präsentation qualitativer Forschungsdaten innerhalb der Wissen- 
schaft lag (vgl. Web-basiertes System für Präsentationskorpora, Lobin 2009: 
162-163). Ein solches System, das den Anforderungen der Nutzergruppe „breite 
Öffentlichkeit“ gerecht würde, könnte aufgrund der dargelegten Komplexität 
sicher erst in einer späteren Entwicklungsstufe der Standardisierungsbemü- 
hungen zur Verfügung stehen. 


2 Der Aspekt der Datendokumentation wurde an dieser Stelle bewusst ausgeklammert und 
wird separat behandelt. 
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4.3 Zeitlicher und finanzieller Mehraufwand: Ersparnis 
auf mittlere Sicht 


Klar ist, jede größere Veränderung in etablierten Forschungsabläufen kostet 
Zeit und damit auch Geld. Das gilt für die hier vorgeschlagenen Standardisie- 
rungen bei der Datensicherung und Dokumentation in der qualitativen Rezep- 
tionsforschung wie in jedem anderen Forschungsbereich auch. Betrachtet man 
den hier im Fokus stehenden Bereich der Forschungstätigkeit genauer, so wird 
deutlich, dass nach einer kurzen Phase des Mehraufwands schon bald mit er- 
kennbarer Zeit- und somit auch Kostenersparnis zu rechnen ist: Die Sicherung 
von Medienstimuli und Forschungsdaten findet auch heute schon statt. Verän- 
derungen betreffen hier in erster Linie den Ablauf des Sicherungsprozesses. 
Bei Einführung eines einheitlichen Systems mit zentralem Speicherort wür- 
den in diesem Zusammenhang zwei Problembereiche entfallen, die im Alltag 
gerade kleiner Forschungseinheiten durchaus virulent sind: Engpässe bei der 
Speicherkapazität und Auffindbarkeit alter Forschungsdaten (Stichwort DVD- 
Archiv oder Sammlung externer Festplatten). Im Bereich der Dokumentation 
von Forschungsergebnissen und der Annotation der Forschungsdaten sieht es 
zunächst sicher anders aus: Etablierte lehrstuhlspezifische Verfahren müssten 
durch ein standardisiertes System ersetzt werden, das in der Regel präzisere 
und umfassendere Dokumentationsleistungen erfordern wird als es vorher der 
Fall war. Selbst hier ist jedoch fraglich, ob auf mittlere und lange Sicht tatsäch- 
lich Mehrkosten entstehen, wenn man bedenkt, dass eine erhöhte Dokumenta- 
tionsqualität das präzise Auffinden und Zuordnen von eigenen und fremden 
Forschungsdaten auch noch nach Jahren und in Anwendungskontexten er- 
möglichen wird, die zum Zeitpunkt der Erhebung vielleicht noch gar nicht auf 
der Agenda standen. 

Wenn Bemühungen zur Standardisierung der Sicherung und Dokumenta- 
tion von Forschungsdaten in der qualitativen Rezeptionsforschung Erfolg haben 
sollen, dann muss dies zwangsläufig auch zu Veränderungen an anderen Stel- 
len im Forschungsprozess führen. Ein ganz wesentlicher Aspekt ist in diesem 
Zusammenhang der Datenschutz: Einverständniserklärungen von Studienteil- 
nehmern müssen dahingehend erweitert werden, dass die erhobenen Daten 
(z.B. Audio- oder Videodaten, schriftliche Befragungen, Blickdaten) auch jen- 
seits der konkreten Untersuchung in anderen Forschungskontexten und von 
anderen Personen genutzt werden können. Eventuell muss je nach Studien- 


3 Vgl. dazu auch ausführlicher und für die qualitative Sozialforschung allgemein Huschka & 
Oellers 2013: 12-13. 
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kontext über eine Differenzierung der langfristigen Nutzungsoptionen nachge- 
dacht werden (andere Forscher vs. breite Öffentlichkeit). 

Standardisierung in der Dokumentation von Daten hat auch Auswirkun- 
gen auf ihre Erhebung: Variablen, die später zur Nutzbarkeit der Daten zu 
Vergleichs- und Replikationszwecken genutzt werden sollen — etwa Alter, 
Geschlecht, Bildungshintergrund etc. — müssen im Studienkontext erhoben 
werden. Veränderungen sind hier in zwei Bereichen zu sehen. Zum einen führt 
das Ziel der Nutzung von Studiendaten in anderen Untersuchungskontexten 
dazu, dass die Zahl der standardisiert zu erhebenden Variablen tendenziell zu- 
nimmt. Mag es für den einen Forscher völlig unerheblich sein, über welche 
Sprachkenntnisse ein Proband verfügt, so ist diese Variable für andere For- 
scher womöglich ein entscheidendes Untersuchungskriterium. Zum anderen 
wird die Erhebungsform zumindest im Bereich personenbezogener Variablen 
ebenfalls eine Standardisierung erfahren müssen, damit etwa Suchroutinen 
mit archivierten Daten funktionieren. Es wäre also möglich, dass Forscher, 
die beim Merkmal Geschlecht bisher die Bezeichnungen „m“ und „w“ in ihren 
Daten genutzt haben, künftig die vereinheitlichenden Bezeichnungen „männ- 
lich“ und „weiblich“ nutzen müssten. 

Wie bei der Datensicherung selbst werden diese Veränderungen im For- 
schungsprozess zu Beginn einen zeitlichen und finanziellen Mehraufwand mit 
sich bringen. Es ist jedoch auch hier davon auszugehen, dass dieser mit zuneh- 
mender Routine deutlich abnimmt. Zudem erscheint auch für den Bereich der 
qualitativen Rezeptionsforschung plausibel, was Heike Solga als eine Konse- 
quenz des Ziels der Datenweitergabe für die qualitative Sozialforschung insge- 
samt postuliert: Es werde „mit der Beobachtbarkeit und Überprüfbarkeit von 
Datenerhebungen und Ergebnissen sowohl die Qualität der Datenerhebungen 
als auch der Datenauswertungen verbessert“ (Solga 2013: 22). 
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III Korpora und Informationsysteme 


Ruxandra Cosma und Marc Kupietz 
9 Von Schienen, Ziigen und linguistischen 
Fragestellungen 


Abstract: Das hier vorgeführte Schienenbild ist das in Anlehnung an Witten- 
burg (2009) als Erweiterungsinstrument gewählte Mittel in dem Versuch, Com- 
putertechnologie, linguistische Forschung und Vernetzung am Institut für 
Deutsche Sprache in deren rasch wachsenden Vielschichtigkeit zu beschrei- 
ben. Hier werden u.a. drei Blickwinkel, der des Technologie entwickelnden 
Wissenschaftlers, des entwickelnden Nutzers und des Nutzers von Informa- 
tionstechnologie in der linguistischen Forschung vereint und um eine für den 
Sprachvergleich neue Dimension, die sprachspezifische Parameter von Analyse- 
instrumenten miteinander harmonisiert, erweitert. 


Keywords: Empirie, Forschungswerkzeuge, Sprachkorpora, Vernetzung 


1 Die Reise hin 


In der Beobachtung sprachlicher Daten und Phänomene, deren Untersuchung, 
Beschreibung und Erklärung fährt man bereits seit Jahrzehnten auf linearen 
Transportbahnen, die sich immer mehr vernetzen. In kurzen Wegen zwischen 
einzelnen Knotenpunkten werden entfernteste Ziele miteinander verbunden. 
Die Fahrt erfolgt innerhalb der eigenen Sprache, überschreitet auch Grenzen, 
richtet sich sprachen- und netzvergleichend aus. Manchmal trifft man auf ein 
ähnlich ausgebautes Schienennetz, manchmal muss man sich die Reise anders 
überlegen, oder auch einen Gleisanschluss organisieren. Die Schienen zum 
spurengebundenen Verkehr (z.B. Ross 2001: 8) erlauben in der Linguistik mittler- 
weile staunenerregende Fahrgeschwindigkeit. Die komplementären Seiten des 
sich auf Forschung begebenden Nutzers und des Infrastruktur betreibenden, 
in Stand haltenden und selbst erstellenden Unternehmers führen in der germa- 
nistischen Linguistik-Forschung zusammen, anders als im Schienenverkehr, 
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wo Transport zur Raumiiberwindung und Schieneninfrastruktur in Eisenbahn- 
unternehmen organisatorisch getrennt werden.’ 

Digitalisierung und Vernetzung verändern auf breiter Front die Welt, das 
Denken, die Wissenschaft. Digitalisierung und Vernetzung, sowie sich daraus 
ergebende Expansion und Diversifikation bestimmen auch das linguistische 
Arbeitsfeld. Im Kontext der in diesem Aufsatz gewählten Konzepte entfalten 
sich in dem linguistischen Bereich immer raffiniertere Fragen zu Datenerhe- 
bung, zu ihrer Verfügbarmachung, zum Umgang mit Daten, zu Datenmengen, 
zu Methoden und Interpretation, zur Nutzung von bestehenden technolo- 
gischen Diensten, zu technischen Herausforderungen. Diese zunehmende 
Komplexität, im Sinne der Begriffsverfeinerung und trennung, zeigt, wie be- 
deutend Aufbau, Ausbau und Nutzung von Infrastruktur geworden sind. Eine 
die Linguistik begleitende Forschung, mit Hilfe derer schon lange bestehende 
linguistische Fragestellungen neu betrachtet und behandelt werden können, 
macht die Nutzung der Infrastruktur zum Bestandteil der linguistischen Wis- 
senschaft und zur linguistischen Arbeit selbst. Aus der Nutzerperspektive sind 
Daten, Methoden, Technik und Dienste Teil der Forschungsinfrastruktur, wie 
sie aber auch Teil der eigenen wissenschaftlichen Auseinandersetzung mit 
Sprache sind. 

Nach wie vor ist linguistische Forschung ohne institutionelle Infrastruktur 
möglich; der Sprachwissenschaftler kann selbst Daten sammeln, analysieren, 
interpretieren, Phänomene erklären. Voraussetzungen, Verfahrensweisen, Inte- 
ressen, Blickrichtungen, Zielsetzungen, Grundbegriffe sind individuell begrün- 
det. Für die datenbasierte, empirische Linguistik sind aber die Ansprüche an 
die Validität und Nachvollziehbarkeit der Prinzipien der Theoriebildung sowie 
der Methoden und empirischen Verfahren und die Exaktheit ihrer Beschrei- 
bung, also letztlich an Wissenschaftlichkeit, erheblich gestiegen. Empirisch 
und theoretisch ausgerichtet, ist Linguistik heutzutage meist viel mehr als nur 
Erfahrungswissenschaft und theoretische Wissenschaft, die „nicht nur die 
sprachliche Materialbasis, sondern auch die Reflexion auf die die Materialbasis 
erfassenden Methoden zum Objekt ihrer Forschung erhebt“ (van de Velde 1970: 
7). Computertechnologie ergänzt und unterstützt sie nun, und diese ist aus der 
linguistischen Forschung in den auf authentische Daten angewiesenen Berei- 
chen kaum noch wegzudenken, wie sie in Ergänzung dann auch auf quantita- 
tive Methoden der Datenanalyse, die deskriptive Statistik oder statistische Ope- 
rationalisierung nebst qualitativen Untersuchungen immer mehr zurückgreifen 
muss. Diese methodischen Erweiterungen erweisen sich als notwendig, da die 
Erkenntnisse einer Korpusuntersuchung die Frage nach der Generalisierbarkeit 


1 Vgl. Ross (2001: 8-9). 
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der Aussagen zum untersuchten Phänomen überstehen sowie eventuell anste- 
hende Zweifel ausräumen müssen. Damit hängt die Wahl und Beschreibung 
des Sprachdaten-Ausschnitts zusammen. Und dies hängt seinerseits von der 
Größe des Korpus ab. Somit kommt man zurück auf das Thema der Methoden- 
entwicklung und auf Wissenschaftlichkeitskriterien, auf Fragen nach der 
wissenschaftlichen Objektivität und der Repräsentativität, die nicht absolut 
beschrieben werden können. Die Technikdistanz, von Jakob (1991) für die 
Geisteswissenschaften noch als deutlich lang beschrieben, wobei Technik den 
Bereich der Kommunikation und Information miteinbezog, ist in der Linguistik 
allgemein, besonders aber in der Korpuslinguistik so viel kürzer geworden. So 
auch die nicht nur dadurch schrumpfende Distanz zu den sciences, zu den 
‚harten‘ Wissenschaften (vgl. Busse 1989; Teubert & Belica 2014: 298). Denn 
Korpuslinguistik setzt in diesem Sinne viel mehr als nur Informationstechnolo- 
gie ein, sie modelliert auch sprachliche Daten und Sachverhalte zu verschiede- 
nen Verwendungszwecken (z.B. Jannidis, Kohle & Rehbein 2017: 13-14, 100- 
104). 

Die Schienen-Analogie, die wir hier als Ausgangspunkt angenommen ha- 
ben und zu eigenen Interessen ausbauen, geht auf Peter Wittenburg (2009: 7) 
zurück, der sie gerne zur Illustration des Potenzials der Vernetzung bestehen- 
der Forschungsressourcen verwendet hat. Für Wittenburg sind solche Schie- 
nen (und Signalanlagen) im Vergleich zu den komplexen Zügen, die in seiner 
Analogie Methoden und Werkzeuge darstellen, technisch betrachtet äußerst 
simpel und haben dennoch das Potenzial, die Produktivität von Sprach- 
forschern deutlich zu verbessern. 

Für den Sprachwissenschaftler und dessen Auseinandersetzung mit 
sprachlichen Phänomenen sind vor allem Reiseziele und der Weg hin von Be- 
deutung; diese mögen, je nach Vorgehensart, mit der Nutzung einer Infrastruk- 
tur, als Bestandteil ihrer Wissenschaft, einhergehen. Ist einem Reisenden das 
Reiseziel bekannt, so sucht dieser nach Reiserouten, gegebenenfalls nach Zug- 
verbindungen, die zum Ziel führen sollen. Er vergewissert sich, ob das Ziel 
über Schienenverkehr erreichbar ist, informiert sich somit darüber, wie die be- 
stehende Infrastruktur für eigene Ziele optimal genutzt werden kann. Auf der 
Reise zum Ziel fährt man durch die Landschaft, direkt oder über Verkehrskno- 
ten, die ein Umsteigen möglich machen. Dadurch wird das bestehende Netz- 
werk noch intensiver genutzt. Es mag durchaus sein, dass sich der hierfür ge- 
wählte Vergleich und das In-Beziehung-Setzen (Hentschel 2010: 15-21) von 
Schienenverkehr und textbasierter Technologie zur Analyse von Sprache nicht 
gänzlich als mängelfrei erweist, dass im Kleinen noch Ungereimtheiten zu er- 
kennen sind. Die Ähnlichkeitsbetrachtung ist hier aber breit angelegt und ver- 
folgt keine disparaten Eigenschaften, sondern strukturelle Ähnlichkeiten und 
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Ähnlichkeiten zwischen Relationen.? In diesem Fall zwischen Objekt, Frage- 
stellungen, Instrument und Methode. 

Die bildliche Klammerung zum wissenschaftsergänzenden Unterbau bietet 
die Möglichkeit, Vernetzung sinnfällig zu machen. Nicht nur als Bild von Kno- 
ten und Kanten und vom kürzesten Weg, als Vernetzungstopologie, sondern 
auch im Sinne des Verbundes mit europäischen Projekten. 

Am Institut für Deutsche Sprache (IDS) stehen Entwickler und Nutzer von 
Infrastruktur in engster Zusammenarbeit bzw. sind in der wissenschaftlichen 
Arbeit auf verschiedenste Weise vereint. Der vorliegende Aufsatz beschreibt 
einige dieser vielen Komponenten, die dem Aufbau und Nutzung von Sprach- 
daten und Analyseinstrumenten dienen. Heterogene Anforderungen an digi- 
tale Infrastrukturen im Dienste der Linguistik, wie die Frage nach der Zusam- 
menbringung von Daten, Methoden, Diensten etc., um Forschungsaufgaben 
effektiver lösen zu können, oder die Frage, wie man Daten, Methoden etc. mög- 
lichst nachhaltig nutzbar machen kann, beschreiben einen Aufbruch, der am 
IDS schon lange Tradition hat. 

Im Folgenden werden wir uns auf Datenerfassung, Modellierungsprozesse 
und Auswertungsverfahren zur geschriebenen Sprache am IDS beziehen. Die 
am IDS parallel verlaufenden Entwicklungen zu Korpora gesprochener Sprache 
werden z.B. in Stift & Schmidt (2014) beschrieben und in Kupietz & Schmidt 
(2015) zu denen der Korpora geschriebener Sprache in Beziehung gesetzt. 


2 Digitalisierung 


Die Dokumentation sprachlicher Phänomene am Korpus, in den ersten Mona- 
ten nach der Gründung des Instituts 1964 bereits als Aufgabenbereich des IDS 
umrissen, daraufhin Datenerhebung, d.h. Texterfassung und Kodierung zur 
grammatischen Analyse? oder zu lexikografischen Zwecken mittels datenverar- 
beitender Maschinen, haben sich im Wandel der Zeit und über die Zeit hinweg 
etabliert. Über die - selbst für die heutige Zeit über-ambitionierten - anfäng- 
lichen Erwartungen schreibt Engel (1968: 1), dass in der Zeit nirgends so viele 
Blütenträume zerstört worden seien wie auf dem Gebiet der maschinellen 
Sprachverarbeitung. 


2 „Analogy denotes a resemblance not between things, but between the relations of things.“ 
(Hentschel 2010: 24). 

3 Vorerst im Rahmen des IDS-Projekts zu Grundstrukturen der deutschen Sprache (siehe 
Teubert & Belica 2014: 301). 
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Die Anfänge wandten sich der Datenerfassung zur Erstellung des Mann- 
heimer Korpus I und II, oder einer Datenbank zum Wortschatz von Ost und 
West als Zeitungskorpus zu. Zunächst durch Einsatz von Schreiblochern und 
Lochstreifen mittels weniger Programme zur Kodierung und Datenverarbeitung 
im Rahmen einer Kooperation mit Rechenzentren in Darmstadt oder in Bonn, 
Ende der 1960er Jahre bereits im Rahmen eines eigenen Rechenzentrums am 
Institut über Programme, die von wissenschaftlichen Mitarbeitern der linguis- 
tischen Datenverarbeitung erstellt wurden, ferner stark erweitert durch das 1998 
gestartete Verbundprojekt Deutsches Referenzkorpus (DeReKo-I) (Teubert & 
Belica 2014: 308) wuchsen die Datenbanken über Zeit hinweg zu einer univer- 
sellen Ur-Stichprobe des geschriebenen Gegenwartsdeutsch, dem Deutschen 
Referenzkorpus DeReKo (Kupietz et al. 2008). Die Programme zur Auswertung 
der Daten wurden ihrerseits zu immer komplexeren Analysesystemen, mit 
denen immer komplexere linguistische Ziele verfolgt werden konnten, entwi- 
ckelt; hier seien Programme und Übergänge vorerst nur kurz erwähnt — REFER, 
COSMAS I, COSMAS II, KorAP. Das dynamische DeReKo (Kupietz & Keibel 
2009a) bot von vornherein die Möglichkeit zur Erstellung eines eigenen (virtu- 
ellen) Korpus, das individuellen Forschungsinteressen und Untersuchungs- 
intentionen entgegenkommt, indem sich für die speziellen Fragestellungen 
und zu untersuchende Grundgesamtheiten maßgeschneiderte und möglichst 
repräsentative Unterstichproben approximieren lassen. Dokumentiert werden 
diese Entwicklungen in ihren Anfängen und in ihrem zeitlichen Verlauf von 
Engel (1968, 2014), Zint (1968), Stickel (2007, 2014), Berens (2014), Hellmann 
(2014), Kupietz (2014), Teubert und Belica (2014) und vielen anderen. Den 
Übergang von der maschinellen zur elektronischen und digitalen Datenerfas- 
sung, wählt man differenzierende Bezeichnungen, unterstützten technische 
und institutionelle Rahmenbedingungen, die bereits sehr früh vorwegnahmen, 
dass die Zukunft einem Schienenverkehr und der Vernetzung, anfangs nur als 
Computernetz betrachtet, gehört. Anfänge der Vernetzungsprozesse zwischen 
den Ressourcen oder auch zwischen Personen, die Wandlung von Informa- 
tionstechnologien zu Informations- und Kommunikationstechnologien sind in 
der Mitte der 1980er Jahre angesiedelt (Jannidis, Hubertus & Rehbein 2017: 9). 
Ein institutionalisierter Raum für die Grundlagenforschung zur linguistischen 
Methodik basierend auf Korpora, d.h. für einen eigenen Programmbereich 
Korpuslinguistik, wurde am IDS ab 2004 geboten (Kupietz 2014, Teubert & 
Belica 2014: 315). 2009 ging dann aus diesem, angestoßen durch das BMBF- 
geförderte Projekt Aufbau eines Zentrums „Digitale Forschungsressourcen für die 
germanistische Sprachwissenschaft“ ein eigener Programmbereich Forschungs- 
infrastrukturen hervor, der zunächst vor allem Informationsangebote, Infor- 
mationstechnik und Informationswissenschaft, Projekte „mit Schnittstellen- 
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charakter“ wie CLARIN-D, WissGrid, TextGrid etc. sowie juristische Expertise 
biindelte (Schonefeld & Witt 2014). 

Jeder der Aspekte des medialen Transfers von gedruckten Texten in eine 
elektronische Fassung, zusammenhängend mit sich rasch und selbstständig 
entwickelnden Rekonstruktions- und Kodierungsfragen, Fragen zum Umgang 
mit Big Data mittels eines Analysesystems, bereitete eine nächste Phase vor: 
die der Vernetzung, nicht nur im Sinne des global village, das durch das immer 
noch verbesserbare Internet und somit durch den Online-Zugriff möglich wird, 
sondern im Sinne einer Sammlung von Ressourcen, die den Traum von einem 
vereinfachten gebündelten Zugriff auf diese Ressourcen erlaubt. Und hier wird 
wiederum die eingangs genannte Analogie zu den linearen Transportbahnen 
merklich: Durch die Landschaft der Forschungsdaten fährt man mit ICE-Zügen, 
die wie im eigentlichen Sinne spur- und schienengebundene Verkehrsmittel 
sind. In diesem Sinne seien hier die am IDS entwickelten und eingesetzten 
Auswertungssysteme COSMAS II und KorAP vorerst nur kurz genannt; deren 
Rolle wird im Folgenden auf einer allgemeineren Ebene diskutiert. 


3 Wissenschaftliche Werkzeuge 


Inzwischen steht schon längst fest, dass „Korpuslinguistik nicht auf eine 
Senkung der theoretischen, sondern auf eine Hebung der methodischen An- 
sprüche hinausläuft“ (Lehmann 2007: 27). Damit hängt jedoch die noch nicht 
geklärte Frage nach der Rolle der Infrastruktur zusammen, ob diese nur ein 
Instrument im Dienste der Linguistik darstellt, oder vielmehr ein elementarer 
Bestandteil der eigentlichen Forschung wie die Interpretation von Daten und 
Analyseergebnissen ist. Zur Beantwortung der Frage ist zunächst vorauszu- 
schicken, dass die Unterscheidung zwischen Infrastruktur und Forschung 
sowie zwischen Infrastruktur und Wissenschaft meist vom jeweiligen Betrach- 
tungswinkel und -abstand abhängt.* So kann der Large-Hadron-Collider (LHC) 
mit etwas Abstand sicherlich als Bestandteil der CERN-Infrastruktur oder 
besser, da diese zur Forschung verwendet wird, als Bestandteil der CERN- 
Forschungsinfrastruktur betrachtet werden. Auf der anderen Seite sind Teilchen- 
beschleuniger im Allgemeinen natürlich Gegenstand von Forschung und der 
LHC selbst auch Ergebnis von Forschung. Zwischen Forschung und Infra- 
struktur(-Bestandteil) muss also grundsätzlich kein Widerspruch bestehen. 


4 Eine weit gefasste Definition des Begriffs Forschungsinfrastruktur findet sich in Wissen- 
schaftsrat 2011: 17. 
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Interessanter ist vielleicht die Frage, inwieweit solche wissenschaftlichen 
Werkzeuge, die der Produktion oder der Auswertung von Forschungsdaten 
dienen, derselben fachwissenschaftlichen Forschung zuzurechnen sind. Zwar 
kann auch diese Frage einfach darauf zurückgeführt werden, wie eng man 
diese Kategorie fasst, jedoch hat es diesbezüglich in vielen Disziplinen eine 
rasante Entwicklung gegeben. Dies betrifft generell solche Disziplinen, in de- 
nen anhand von großen Mengen an Forschungsdaten statistische Modelle ge- 
wonnen werden können, die konventionelle Erklärungsmodelle zunehmend 
ergänzen oder gar ersetzen, also keineswegs nur die Teilchenphysik, sondern 
auch z.B. auch die Medizin und solche Geisteswissenschaften, die auf größere 
Datenmengen zurückgreifen können und deren Gegenstand zu komplex ist 
oder sich aus anderen Gründen (noch) einer Theory of Everything verschließen 
(siehe z.B. Lehmann 2007, Keibel & Kupietz 2009). In besonderem Maße ist 
dabei die Linguistik betroffen, bei deren Forschungsprimärdaten vom Typ 
„beobachtbare Sprache“ es sich gewissermaßen um ein bewegliches Ziel han- 
delt, das zumindest Aspekte eines dynamischen Artefakts aufweist, da es sich 
zwar eingeschränkt aber permanent und unvorhersagbar verändert (vgl. Keller 
1994; Kupietz & Keibel 2009b). Hinzu kommt, dass man von diesen und ande- 
ren Forschungsdatentypen in der Linguistik nur sehr indirekt auf allgemeinere 
Prinzipien — seien sie sprachsystemischer, sprachpsychologischer oder anderer 
Art — schließen kann, um zu neuen Hypothesen und Erkenntnisgewinn zu 
gelangen. Wie ein solcher Schluss gelingen kann, welche Eigenschaften der 
Daten dabei relevant und welche theoretischen Konstrukte dabei hilfreich sind, 
ist daher selbst elementarer Gegenstand der sprachwissenschaftlichen For- 
schung. Dies manifestiert sich z.B. in der großen Zahl unterschiedlicher Gram- 
matiktheorien und -formalismen in der Linguistik, die sich mit unterschiedli- 
chen Blickwinkeln ihrem Gegenstand nähern, parallel verfolgt werden und 
deren Anzahl die in der Teilchenphysik bei weitem übersteigt. Einen Grund 
für die Annahme, dass dieser Theorienpluralismus sich durch die verstärkte 
Einbeziehung von Korpora und anderen Daten, vielleicht durch eine Art Objek- 
tivierung, zwangsläufig wesentlich reduzieren würde, gibt es kaum. Es ist le- 
diglich zu erwarten und bereits zu beobachten, dass Theorien, die sich über- 
haupt nicht anhand von Daten falsifizieren lassen, es schwer haben werden. 
Die Bandbreite möglicher Ansätze - und entsprechend die Unsicherheit über 
den jeweils richtigen — beginnt auch noch in einer eng gefassten Korpuslinguis- 
tik bereits bei der Auswahl und Erhebung der Daten. Sie setzt sich fort z.B. bei 
der Kodierung der Daten bzw. der Kodierung der Rekonstruktion der ursprüng- 
lichen Sprachereignisse, über die verwendeten Analysemethoden (jeweils mit 
unterschiedlichem Skopus, unterschiedlichen Bewertungsmaßen und anderen 
Parametern) bis hin zur Darstellung der Such- oder Analyseergebnisse. Für die 
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Ergebnisse einer abschließenden Interpretation haben alle auf diesem Weg ge- 
troffenen Entscheidungen einen potenziell ausschlaggebenden Einfluss. Daten 
und Werkzeuge zu ihrer Aufbereitung, Analyse und Interpretation ausschließ- 
lich unter dem Aspekt einer nicht weiter aufschlüsselbaren und einer idealer- 
weise austauschbaren Infrastruktur zu betrachten, birgt daher die Gefahr, die 
Relevanz eines ganzen Bereichs ausschlaggebender Entscheidungen zu unter- 
schätzen. Dies würde nicht nur die Suche nach möglichen Fehlschlüssen unnö- 
tig einschränken, sondern generell den Suchraum für Wege zum Erkenntnis- 
gewinn. 

Die Beantwortung der Frage, ob man diesen Bereich innerhalb einer jewei- 
ligen Fachwissenschaft verorten sollte, hängt davon ab, in welchem Maße ein 
Werkzeug für die jeweilige Fachwissenschaft konzipiert wurde. Zwar kann es 
sein, dass auch eher fachfremde Werkzeuge sich als nützlich erweisen (hier 
besteht eher das Problem nur scheinbare Nützlichkeit zu erkennen). Dass aber 
etwa speziell linguistische Werkzeuge nur zufällig nützlich für die linguistische 
Forschung sind, ist eher unwahrscheinlich. Vielmehr muss man davon aus- 
gehen, dass die oben genannte Reihe von Entscheidungen jeweils mit dem Ziel 
getroffen wurden, linguistische Probleme lösen zu können. Hinzu kommt, dass 
durch den Einzug von Korpora in verschiedene Bereiche der Linguistik, in denen 
sie sehr unterschiedliche Rollen spielen können, derzeit viele noch wenig er- 
forschte Stellen gibt, an denen quantitative auf qualitative Methoden aufein- 
andertreffen. Diese Stellen betreffen Analysewerkzeuge nicht nur hinsichtlich 
ihrer verwendeten statistischen Methoden, sondern z.B. auch hinsichtlich der 
Darstellung, d.h. Visualisierung der Ergebnisse dieser, da sie einen erheblichen 
Einfluss auf die aus ihnen abduzierbaren qualitativen Hypothesen haben. 

Die Frage, ob eine Darstellung sinnvoll ist, lässt sich auch hier nicht all- 
gemein mit ja oder nein beantworten. Vielmehr ist die Antwort typischerweise 
abhängig vom konkreten Forschungsziel. Sie ist also mehr als nur disziplin- 
spezifisch. Ein weiterer Aspekt der Integration von quantitativen und qualita- 
tiven Methoden betrifft die Unterstützung von Arbeitsabläufen durch Analyse- 
werkzeuge. Hier haben Analysewerkzeuge ein großes Potenzial, quantitative 
Methoden mit qualitativen Methoden zu engen Zyklen miteinander zu verzah- 
nen und in explorativen Kontexten die Abduktion von Hypothesen stark zu 
beschleunigen (vgl. Kupietz & Schmidt 2015: 307; Kupietz et al. 2017a: 326 f.). 
An dieser Stelle können verlässliche wissenschaftliche Werkzeuge auch dazu 
beitragen, dass in der Linguistik auch einzelne Wissenschaftler weiterhin em- 
pirisch fundierte Forschung zumindest zu einem großen Teil eigenständig be- 
treiben können. Eine zunehmende Spezialisierung und Arbeitsteilung, wie sie 
z.B. in der Psychologie (s.a. Haider 2015) schon lange gang und gäbe ist, ist 
zwar aufgrund des Wachstums des notwendigen Wissens unumgänglich, aber 
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zumindest begrenzt auf die Exploration von Daten und Hypothesen können 
Werkzeuge z.B. Experten zur Datenanalyse ersetzen. 

Wittenburgs klare Unterscheidung zwischen Schienen und (ICE-)Zügen ist 
also nicht nur hilfreich, um das Potenzial einer genuin infrastrukturellen und 
technisch vergleichsweise simplen Vernetzung zu verdeutlichen, sondern 
auch, um mögliche Missverständnisse bezüglich der Rolle wissenschaftlicher 
Werkzeuge zu vermeiden. 


4 Vernetzung 


Bereits in den 1990er Jahren gab es zahlreiche paneuropäische Projekte zur 
Förderung von human language technology (HLT), zum Aufbau von Ressourcen 
und Technologien sowie zum Aufbau von Infrastrukturen, wie insbesondere 
das Projekt TELRI (Trans-European Language Resources Infrastructure) (siehe 
Teubert & Belica 2014). Zwar haben sich diese Initiativen positiv auf die 
Zusammenarbeit europäischer Sprachzentren und auf die Entwicklung der 
Korpuslinguistik auch außerhalb der Anglistik und über die Lexikologie hi- 
naus ausgewirkt, aber letztlich „wenige Ressourcen von bleibendem Wert“ 
(Teubert & Belica 2014: 306) und insbesondere wenig greifbare Strukturen oder 
Infrastrukturen von bleibendem Wert geschaffen. Sprachressourcen und Tech- 
nologien wurden vielmehr außerhalb solcher koordinierender Verbundinitia- 
tiven und im Zuge zunehmender Diversifikation und Spezialisierung auseinan- 
der divergierender Subdisziplinen entwickelt. 

Die Ausgangslage für die nächste große paneuropäische Infrastrukturini- 
tiative CLARIN (Common Language Resources and Technology Infrastructure) 
war 2006 folglich, dass durchaus in großer Anzahl vorhandene Sprachres- 
sourcen und Technologien (Language Resources and Technology - LRT) zum 
weitaus größten Teil untereinander nicht interoperabel waren. Das heißt, es 
war nicht ohne weiteres möglich, ein Korpus vom Zentrum A mit einem Korpus 
von Zentrum B zu vereinen, beide zusammen mit einem Wortart-Tagger vom 
Zentrum C zu annotieren, um dann die neu entstandene Ressource mit einem 
Werkzeug vom Zentrum D zu analysieren. Um dies zu bewerkstelligen, muss- 
ten nach dem sogenannten „download first, then process“-Paradigma (Kemps- 
Snijders et al. 2008) zunächst alle Ressourcen und Werkzeuge ggf. lizenziert 
und heruntergeladen werden, um dann die Auszeichnungsformate der Res- 
sourcen und die Ein- und Ausgabeformate der Werkzeuge aneinander anzupas- 
sen und einen größten gemeinsamen Nenner aller Lizenzbedingungen zu fin- 
den. Der damit verbundene Aufwand ware allerdings so groß gewesen, dass er 
in der Regel unrealistisch und höchstens teilweise zu bewerkstelligen war, so 
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dass es für solche Projekte meist einfacher war, neue, spezialisierte Ressourcen 
aufzubauen und Werkzeuge zu entwickeln, die allerdings selbst wiederum ty- 
pischerweise nicht in anderen Kontexten nachnutzbar waren. 

Die Hoffnung von CLARIN war, dass sich durch eine Verbesserung der In- 
teroperabilität bestehender und zukünftiger LRT ihre Wiederverwendbarkeit 
exponentiell steigern ließe und damit ein regelrechter Boost in den mit Sprach- 
ressourcen arbeitenden geistes- und sozialwissenschaftlichen Disziplinen aus- 
gelöst würde. Um eine solche Interoperabilitätsverbesserung zu erreichen, hat 
CLARIN vor allem an den folgenden Teilen einer besseren und stabileren Ver- 
netzung von Zentren, Ressourcen und Nutzern gearbeitet: 

1. Sozialer Teil 

a) Interoperabilität als Gegenstand von Kooperationen (über unmittel- 
bare fachliche Ziele hinaus) 

b) Erweiterung der Kontakte von Diensteanbietern über ihre unmittel- 
baren Zielgruppen hinaus, durch so genannte Facharbeitsgruppen zu 
verschiedenen Themenbereichen und durch Kurationsprojekte 

c) Dissemination z.B. durch Sommerschulen und durch Help-Desks 
2. Normativer Teil 

a) Standards und Best-Practices zu Auszeichnungs- und Kodierungs- 
formaten 

b) Best-Practices z.B. zum Aufbau und zur Kuration von Korpora 

c) Schnittstellendefinitionen 

d) Muster-Lizenzvereinbarungen 
3. Rechtlich/vertraglicher Teil 

a) z.B. Verträge zwischen Diensteanbietern 
4. Informationstechnischer Teil 

a) Basisdienste wie PID-Service und AAI 

b) Muster-Applikationen 


Hinsichtlich einer Basisinfrastruktur hat CLARIN nun zehn Jahre später in der 
Tat sehr gute Dienste geleistet. Für die allermeisten Anwendungen liegt zwar 
ein web-basiertes Paradigma, wie es noch in Kemps-Snijders et al. (2008) skiz- 
ziert wird, bei dem Ressourcen und Tools per Mausklick virtuell kombiniert 
werden können, in weiter Ferne, aber es sind die Grundlagen dafür geschaffen, 
dass auch im Rahmen von Abschlussarbeiten und kleinen Projekten Daten und 
Methoden aufgebaut, genutzt und nachnutzbar gemacht werden können. Der 
Grund, warum die Vision eines Mausklick-Szenarios nicht erreicht wurde und 


5 Eine detaillierte Darstellung der verschiedenen Infrastrukturkomponenten findet sich in 
Fiedler et al. 2014. 
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wahrscheinlich auch nicht erreicht werden kann, ist dabei einfach die bei der 
Entwicklung von Ressourcen und Technologien mit begrenzten Mitteln unab- 
dingbare Verpflichtung zur Sparsamkeit. Dies hat zur Folge, dass Features, die 
für die primäre Anwendung nicht notwendig sind gegenüber Features, die für 
die primäre Anwendung wichtiger sind, zurückstehen müssen, so dass sich LRT 
typischerweise nur bedingt und nicht auf dem gleichen Niveau in nicht primär 
intendierten Anwendungskontexten wiederverwenden lassen. Im CLARIN- 
Kontext trifft dies in besonderem Maße zu, da der CLARIN-Skopus nicht an 
bestimmten Anwendungen orientiert ist, sondern am Datentyp Sprachressource 
im Allgemeinen, so dass das Anwendungsspektrum innerhalb der Sozial- und 
Geisteswissenschaften sehr breit ist und völlig unterschiedliche Forschungs- 
gegenstände und -ziele umfasst, obwohl mit DARIAH® zeitgleich eine weitere, 
komplementäre Infrastruktur für die Geistes- und Kulturwissenschaft aufge- 
baut wurde. Dass CLARIN trotzdem viel erreicht hat, liegt vor allem daran, 
dass sich die Arbeiten auf solche basalen Infrastrukturschichten konzentriert 
haben, die zwar für den Anwender nicht unmittelbar sichtbar sind, aber tat- 
sächlich praktisch immer benötigt werden, um Sprachressourcen für die eigene 
Forschung zu erschließen und die Ergebnisse für andere nachnutzbar zu ma- 
chen. So hat CLARIN ein recht vollständiges infrastrukturelles Basisfundament 
geschaffen, auf dem ein breites Spektrum fachwissenschaftlich orientierter 
Projekte aufsetzen kann. 

Dass CLARIN sich auf, aus Anwenderperspektive meist weit entfernte, 
basale Komponenten konzentriert hat, war auch richtig und unvermeidbar im 
Hinblick auf eine andere für Infrastrukturen unabdingbare Eigenschaft: ihre 
Nachhaltigkeit. Wenn nicht sichergestellt ist, dass Schienen noch in vielen Jah- 
ren benutzbar sind, ist es ein Fehler, in ihren Ausbau oder ihre langfristige 
Nutzung zu investieren. Diese Herausforderung betrifft in erster Linie die tech- 
nischen Infrastrukturkomponenten, deren permanente Instandhaltung und 
Wartung dauerhaft gesichert sein muss. Die Frage was und wie viel gerade an 
technischer Infrastruktur entwickelt werden sollte — also wie viel eine Disziplin 
sich leisten kann und leisten sollte, ist demnach weniger von den initialen 
Entwicklungskosten abhängig als vielmehr von der Frage, wie viel dauerhaft 
finanzierbar ist. Auch wenn die Infrastruktur-Finanzierung in den Geistes- 
wissenschaften noch nicht so stark bedarfsgekoppelt ist wie in den Natur- 
wissenschaften, müssen die Kosten natürlich auch hier in angemessener Rela- 
tion zur Größe der Anwenderschaft stehen, so dass auch aus diesem Grund 
einfache Basisdienste, angefangen bei der Vergabe persistenter Identifikatoren 


6 https://de.dariah.eu/ (letzter Zugriff: 20.10. 2017). 


210 —— Ruxandra Cosma und Marc Kupietz 


bis hin vielleicht zu einer einfachen föderierten Suche (Stehouwer et al. 2012) 
im Fokus stehen müssen. 

Durch eigene Initiativen wird der Vernetzungsgedanke hausintern weiter- 
entwickelt, das IDS wächst durch Ausbau zur Mitte. Einige dieser Initiativen 
werden in den folgenden Abschnitten beschrieben. 


5 EuReCo 


Die Idee der EuReCo-Initiative (siehe Kupietz et al. 2017b), die 2013 im Kontext 

von CLARIN und im Kontext der CMLC-Workshops (Banski et al. 2013, 2015; 

Kupietz et al. 2014a) entstanden ist, besteht darin, ein virtuelles Europäisches 

Referenzkorpus zu schaffen, das ausschließlich auf bereits existierenden oder 

im Aufbau befindlichen Referenz- und Nationalkorpora beruht, und zu diesen 

einen gemeinsamen Zugang anzubieten. EuReCo verfolgt dabei im Wesent- 

lichen zwei Ziele: Zum einen soll so mit Hilfe der gemeinsamen technischen 

Plattform sprachvergleichende Forschung mit dynamisch definierbaren, ver- 

gleichbaren Korpora der verschiedenen Sprachen ermöglicht werden. Zum an- 

deren soll durch die Verwendung einer gemeinsamen Plattform eine neue bzw. 
erweiterte Infrastruktur geschaffen werden, die auf folgende Synergieeffekte 
abzielt: 

1. Vermeidung von Redundanzen bei der Entwicklung von Korpusanalyse- 
und Rechercheplattformen: Funktionalitäten werden nur einmal entwickelt 
und in verschiedenen Kontexten genutzt. 

2. Vermeidung von Redundanzen bei Aufbau und Kuration cross-linguistischer 
und vergleichbarer Korpora: Bestehende Korpora werden dynamisch nach- 
genutzt. Sie werden weiterhin von den jeweils verantwortlichen Institu- 
tionen erweitert und kuratiert und über EuReCo nur weiteren Verwendungs- 
arten zugeführt. 

3. Vermeidung redundanter Lizenzierung: Die einzelsprachlichen Korpora ver- 
bleiben an ihren Standorten und müssen daher für die neuen Verwendungs- 
arten typischerweise nicht neu lizenziert werden. 

4. Verbesserte Nachhaltigkeit insbesondere der technischen Infrastruktur- 
elemente durch die Unterstützung mehrerer Institutionen. 

5. Schnellerer methodischer Fortschritt in den einzelsprachlichen Philologien 
durch die gemeinsame Verwendung von Weiterentwicklung von Analyse- 
methoden und Workflows. 

6. Leichtere Identifikation zusätzlich möglicher Synergien durch engere 
Kooperation unter den National- und Referenzkorpusanbietern. 
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Das oben skizzierte Problem, dass Forschungsinfrastrukturen typischerweise 
entweder sehr basal sind oder nicht mächtig genug, um stark divergierenden 
Endnutzeranforderungen zu genügen, soll dabei gelöst werden, indem die 
technische Infrastruktur als Ergänzung und zusätzliche Alternative zur mög- 
licherweise bereits bestehenden Infrastruktur verwendet wird. Darüber hinaus 
soll der technische Teil der Infrastruktur als Open-Source-Software mit Ent- 
wicklungszweigen realisiert sein, die, falls notwendig, voneinander abweichen 
können. 


5.1 DRuKoLA 


EuReCo existierte lange Zeit nur als Idee und als Teil verschiedener Förderanträ- 
ge. Dies änderte sich Anfang 2016 mit dem Start des Projektes DRuKoLA (ur- 
sprünglich Sprachvergleich korpustechnologisch — Deutsch-Rumänisch genannt), 
einer Kooperation zwischen dem IDS, der Universität Bukarest und den For- 
schungsinstituten der Rumänischen Akademie in Bukarest und Iasi.’ In seinem 
Mittelpunkt stehen das Deutsche Referenzkorpus (DeReKo) (Kupietz et al. 2010) 
und das Referenzkorpus der Rumänischen Gegenwartssprache (Reference 
Corpus of Contemporary Romanian Language, CoRoLa) (Tufis et al. 2015, 2016). 
DRuKoLA ist ein transdisziplinäres Projekt mit Zielen im Bereich der Korpus- 
linguistik, der Grammatik und der Forschungsinfrastrukturentwicklung, indem 
über die Entwicklung und Harmonisierung von Forschungsinfrastruktur auf 
Ziele in der Grammatik und in der Korpuslinguistik hingearbeitet wird. Auf- 
grund neu entwickelter Instrumente sollen probeweise explorative linguisti- 
sche Studien durchgeführt werden Somit wird eine Grundlage für empirische 
und technische Forschung im Sprachvergleich (hier Deutsch-Rumänisch) 
geschaffen, die sich gleichwohl einem höheren Ziel, der Entwicklung einer 
EuReCo-Grundstruktur und einer Blaupause zur Integration weiterer Korpora 
bzw. weiterer Institutionen in die Infrastruktur, unterwirft. 

Neben dem ersten Schritt zur Verwirklichung der Idee eines virtuellen 
Europäischen Referenzkorpus ist also der Sprachvergleich das zentrale Thema 
des DRuKoLA-Projekts. Während im Wechsel der Zeiten der Sprachvergleich in 
Verbindung zur Sprachtechnologie im Bereich automatischer Übersetzung, der 
Erstellung von zwei- oder mehrsprachigen elektronischen Wörterbüchern oder 


7 DRuKoLA wird von der Alexander-von-Humboldt-Stiftung als Institutspartnerschaft zwi- 
schen dem IDS, der Universität Bukarest und der beiden Forschungsinstitute für Computer- 
technologie der rumänischen Akademie in Bukarest und in Iasi (Mihai Drägänescu Research 
Institute for Artificial Intelligence in Bukarest und Institute for Computer Science in Iasi) geför- 
dert. 
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von multilingualen und multifunktionalen Sprachdatenbanken (z. B. Rovere & 
Wotjak 1993: 2) angesiedelt war, verbindet das IDS über DRuKoLA dessen lange 
Tradition des Sprachvergleichs mit der Vorreiter-Rolle im Bereich der Gewin- 
nung und Auswertung von Forschungsdaten zur deutschen Sprache. 

Am Institut für Deutsche Sprache wurde dem Deutschen im Sprach- 
vergleich schon immer ein besonderer Stellenwert zugemessen. In unterschied- 
licher Weise war das Deutsche Gegenstand sprachvergleichender gramma- 
tischer Forschungsprojekte, sei es in Form von zweisprachig kontrastiven 
Grammatiken, über das den sprachlichen Nachbarraum des Deutschen unter- 
suchende GDE-Projekt (Projekt Grammatik des Deutschen im europäischen Ver- 
gleich) mit der 2017 fertiggestellten Grammatik des Deutschen im europäischen 
Vergleich. Das Nominal (Gunkel et al. 2017), gegenwärtig fortgesetzt mit dem 
Thema Verbgrammatik (u.a. Trawinski 2016; Wöllstein 2016), über mehr- 
sprachige Forschungsprojekte wie das Eurogr@mm-Projekt (z.B. Augustin & 
Fabricius-Hansen 2012; Dalmas, Fabricius-Hansen & Schwinn 2016), über die 
Erforschung komplexer Sätze im Deutschen, Portugiesischen und Italienischen 
(u.a. Blühdorn & Ravetto 2014) oder komplexer Argumentstrukturen im Deut- 
schen und im Rumänischen (Cosma et al. 2014), um hier nur einige Projekte 
der jüngsten Zeit zu nennen. Dabei zeigt sich immer wieder, dass eine sprach- 
übergreifende Perspektive auf die untersuchten Phänomene das Sichtfeld er- 
gänzt, so wie Analyseansätze zu grammatischen Phänomenen in anderen Spra- 
chen neue Einblicke für die Analyse entsprechender Phänomene in der eigenen 
Sprache bringen können. Um mit den Worten der Autoren des GDE-Projekts den 
wissenschaftlichen Ertrag des Sprachvergleichs zu beschreiben, werde dadurch 
ersichtlich, „wo eine Sprache eigene Wege geht und wo ihre Strukturen mit 
denen anderer Sprachen konvergieren“ (Gunkel & Zifonun 2012, Klappentext). 

Jedoch sind die sich immer komplexer gestaltenden anwendungs- 
bezogenen Ziele sprachvergleichender Untersuchungen nicht zu übersehen. 
Am Beispiel von DRuKoLA als wegeröffnenden Versuch des anspruchsvollen 
hausinternen Zieles, das neue Analysesystem KorAP „für die Allgemeinheit zu 
öffnen“ und „auf mehrere Schultern zu verteilen“ (Kupietz 2014: 326), daher 
Ressourcen aus unterschiedlichen Sprachen unter einem System zwecks Wei- 
terentwicklung zu bündeln, wird vielmehr gezeigt, dass im Sinne der gleichen, 
in diesem Aufsatz verwendeten Analogie zum Ziel des Sprachvergleichs, aber 
auch über den Sprachvergleich hinaus, aus einer technologischen Perspektive 
Gleisanschlüsse organisiert werden können, um Knotenpunkte grenziibergrei- 
fend miteinander zu verbinden. Im Falle des als Vergleichssprache gewählten 
Rumänischen fällt der Gleisanschluss mit der Erstellung des rumänischen Refe- 
renzkorpus CoRoLa zusammen, einem Projekt, mit dem ein Jahr vor dem Start 
des DruKoLA-Projekts begonnen wurde und das ein Jahr vor diesem enden 
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soll, daher optimale Bedingungen für Harmonisierungsverfahren zur Daten- 
und Prozessmodellierung bietet. Zum anderen aber bietet die Möglichkeit, mit 
demselben Analysesystem zwei Sprachen z.B. syntaktisch anhand virtuell defi- 
nierbarer Korpora zu untersuchen, ein herausragendes Beispiel für die Art, in 
der jeweils einzelsprachliche Untersuchungen zum selben Phänomen über die 
gleiche Ausgangsbasis und dieselben technologischen Möglichkeiten im 
Sprachvergleich sprachtechnologische und infrastrukturelle Entwicklungen 
begünstigen können, die ihrerseits wiederum u.a. zur Weiterentwicklung der 
Linguistik im engeren Sinne beitragen. Als nächste Sprache soll das Unga- 
rische im Rahmen des Projekts DeutUng® in EuReCo integriert werden. 


5.2 KorAP 


Die technische Basis des DRuKoLA-Projekts bildet die Korpusanalyseplattform 
KorAP (Kupietz & Frick 2013; Banski et al. 2013; Diewald et al. 2016), die als 
Nachfolgesystem zum Korpusrecherche- und Analysesystem COSMAS II 
(Bodmer 2005; Bodmer Mory 2014) entwickelt wird. KorAP ist zwar ein in erster 
Linie wissenschaftliches Werkzeug und bietet in dieser Hinsicht einige Neue- 
rungen (Kupietz et al. 2017a), es bietet aber auch unter dem infrastrukturellen 
Aspekt Designeigenschaften, die fiir die Verwirklichung der DRuKoLA-Projekt- 
ziele und der EuReCo-Visionen unabdingbar sind. Die in dieser Hinsicht wich- 
tigste Eigenschaft ist, dass KorAP es erlaubt, mit Daten zu arbeiten, die physi- 
kalisch auf verschiedene Standorte verteilt sind. Dies setzt nicht nur das 
EuReCo-Konzept um, dass jedes beteiligte Zentrum weiterhin fiir die Kuration 
seiner Korpora verantwortlich ist, sondern löst auch das in der Linguistik omni- 
präsente rechtlich-ökonomische Problem, dass Korpustexte normalerweise nur 
so weit lizenziert werden können, dass sie zwar auszugsweise, aber nicht voll- 
ständig die Standorte der unmittelbaren Lizenznehmer verlassen dürfen 
(Kupietz et al. 2014b: 4; Schonefeld & Witt 2014: 332). Ein weiteres damit eng 
verbundenes Problem ist, dass die (Nach-)Nutzbarkeit von Daten und Recher- 
chesoftware in Zusammenhang mit extern entwickelten Analysemethoden ty- 
pischerweise sehr eingeschränkt ist. KorAPs Lösungsansatz folgt hier Jim Grays 
(2003) Postulat put the computation near the data. D.h., wenn die Daten aus 
rechtlichen oder informatischen Gründen nicht bewegt werden können, müs- 
sen Möglichkeiten geschaffen werden, dass vielmehr die Methoden zu den 
Daten bewegt und auf diese angewendet werden können. Nach der ursprüng- 


8 Langtitel: Deutsch-ungarischer Sprachvergleich: korpustechnologisch, funktional-seman- 
tisch und sprachdidaktisch - ebenfalls als Institutspartnerschaft (zwischen der Universität 
Szeged und dem IDS) gefördert von der Alexander von Humboldt-Stiftung. 
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lichen KorAP-Konzeption sollte dieses Prinzip durch eine spezielle, gesicherte 
Umgebung fiir extern entwickelte Methoden (mobile code sandbox) realisiert 
werden (vgl. Kupietz 2014: 325). Dieser Ansatz wurde jedoch zugunsten einer 
besseren langfristigen Wartbarkeit durch einen einfacheren, auf Standard- 
techniken der Open-Source-Softwareentwicklung beruhenden Ansatz ersetzt. 
So können neue Algorithmen an den bestehenden KorAP-Schnittstellen an- 
setzen, die z.B. auch von KorAPs Weboberfläche verwendet werden. Falls 
dies nicht möglich ist, können die neuen Methoden aber auch als KorAP- 
Erweiterungen realisiert werden, die entweder in eigenen Entwicklungs- 
zweigen gepflegt werden oder, idealerweise, in den Hauptentwicklungszweig 
von KorAP eingehen. Bei aller gebotenen Skepsis bezüglich der Nachnutz- 
barkeit von spezialisierten Forschungswerkzeugen in neuen Kontexten, legt 
KorAP so zumindest eine auch aufgrund des institutionellen Engagements des 
IDS realistische infrastrukturelle Basis für weitergehende externe Entwicklun- 
gen. Inwieweit diese genutzt wird und so vielleicht auch zur Bündelung von 
Ressourcen und zur Kanonisierung von Methoden sowie damit vielleicht auch 
zur Beantwortung der Fragen, wie viel Infrastruktur sich die Linguistik leisten 
kann und leisten sollte, beitragen kann, bleibt allerdings abzuwarten. 


6 Rundblick 


Im Unterschied zum wirklichen Schienenverkehr, in dem Streckenausbau mit 
Fahrplan-Umstellungen einhergeht, gibt es in der hier beschriebenen Ent- 
wicklung von Forschungsinfrastruktur in der linguistischen Forschung am IDS 
trotz Verkürzung der Fahrten über Schienenwege und Höchstgeschwindigkeits- 
züge keinen Zeitzwang. Dafür gibt es aber immer mehr neue Schienen, Gleise, 
Anschlüsse, Knotenpunkte, Weichen und Übergänge, die von dem Stellwerk 
am IDS entwickelt, durchgeführt, angeboten werden. Das Netzwerk wächst in 
dem inneren Bau weiter, öffnet sich nach außen, schließt sich an. Der Weg hin 
verläuft aber in eigenem Tempo. 

Der vorliegende Text berichtet letztendlich von Erfahrungen, von Ergebnis- 
sen, von Träumen und Neuerungen. Wir übernehmen hier den Werbeslogan 
des neuen Porsche-Panamera: Ideen alleine verändern nichts. Sondern der Mut, 
sie umzusetzen.!® Hiermit sei für den Mut zum Wandel gedankt. 


9 Z.B. https://web.de/magazine/reise/streckenausbau-deutsche-bahn-plant-grosse-fahrplan- 
aenderungen 32381716 (letzter Zugriff: 20.10. 2017). 

10 http://www.porsche-club-deutschland.de/PcLife/16-2/PC-Life/PDFs/032_Porsche.pdf (letzter 
Zugriff: 20.10. 2017). 
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Abstract: Im Zentrum dieses Beitrags steht das Deutsche Textarchiv, eine Platt- 
form zum Korpusaufbau und zur Korpusanalyse, die im Kontext aller geistes- 
und sozialwissenschaftlichen Disziplinen mit historischen Fragestellungen 
nutzbar ist. Das DTA, das am Zentrum Sprache der Berlin-Brandenburgischen 
Akademie der Wissenschaften (BBAW) angesiedelt ist, wurde von 2007 bis 2016 
von der Deutschen Forschungsgemeinschaft (DFG) gefördert und bildet mittler- 
weile eine wesentliche Komponente der Forschungsdateninfrastruktur des 
deutschen Teils von CLARIN. Der Beitrag präsentiert das DTA als webbasierte 
Forschungsplattform sowohl für die Erstellung und die Kuration von Korpus- 
texten als auch für die Korpusanalyse und verortet es innerhalb der (digitalen) 
Geisteswissenschaften. 


Keywords: Annotation, Historische Fragestellungen, Qualitätssicherung, 
Sprachkorpora, XML 


1 Einführung 


Ziel des Deutschen Textarchivs (DTA)! ist die Erstellung eines disziplinen- und 
gattungsübergreifenden Grundbestands deutschsprachiger Texte aus dem 
Zeitraum von ca. 1600 bis etwa 1900. Die Textauswahl erfolgte auf der Grund- 
lage einer von Akademiemitgliedern der BBAW kommentierten und ergänzten, 
umfangreichen Bibliographie. Aus dieser wurde von der DTA-Projektgruppe 
ein nach Textsorten und Disziplinen ausgewogenes Textkorpus zusammen- 
gestellt, das als Grundlage für ein Referenzkorpus zur Entwicklung der neuhoch- 


1 http://www.deutschestextarchiv.de (letzter Zugriff: 6. 11. 2017). 
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deutschen Sprache dient. Um den historischen Sprachstand möglichst genau 
abzubilden, wurden als Vorlage für die Digitalisierung in der Regel die Erst- 
ausgaben der Werke zugrunde gelegt. Das nach diesen Kriterien zusammen- 
gestellte DTA-Kernkorpus wird kontinuierlich erweitert. Derzeit umfasst es 
etwa 1.500 Werke mit einem Umfang von etwa 120 Millionen Textwörtern 
(Stand April 2017). 

Neben seiner Funktion als Korpusaufbauprojekt wurde das DTA von Beginn 
an auch als aktives Archiv konzipiert. Es soll Ort der Anlagerung weiterer Kor- 
pora sein. Hierzu wurden zunächst Qualitätskriterien bezüglich der Metadaten, 
der Auszeichnungstiefe der Textstrukturen sowie der Genauigkeit des Volltexts 
festgelegt. Des Weiteren wurde aus der Vielzahl der verschiedenen Texte ein 
für viele Kontexte nutzbares Strukturformat entwickelt, das neben seiner Funk- 
tion als Austauschformat für verschiedene Korpora die Interoperabilität für so 
verschiedene Anwendungsfälle wie die Korpusanzeige, die Volltextsuche und 
das Textmining gewährleistet. Mit dem DTA-Basisformat (DTABf) liegt ein 
solches Format vor, welches mit dem XML/TEI-P5-Standard vollständig kompa- 
tibel ist und das mittlerweile auch eine weit über das DTA hinausgehende Ver- 
breitung gefunden hat (dazu mehr in Abschnitt 2.1). Zur Qualitätssicherung der 
Volltexte und der Strukturdaten wurde darüber hinaus mit DTAQ eine webba- 
sierte Plattform entwickelt, die das verteilte Korrekturlesen und Korrigieren 
von Texten erlaubt. Hierzu wurden flexible Möglichkeiten zum Textimport aus 
unterschiedlichen Formaten und eine Text-Bild-Ansicht geschaffen sowie ein 
Editor in die Plattform integriert, mit dem Texte ohne zusätzlich zu installie- 
rende Software bearbeitet werden können (siehe dazu Abschnitt 2.2-4). Am 
Ende des Korrekturprozesses steht die Veröffentlichung auf der DTA-Websei- 
te, wo die Werke über eine Text-Bild-Ansicht zugänglich sowie an verschiede- 
ne Analysewerkzeuge angebunden sind. Letztere führten dazu, dass sich das 
DTA mit DTAQ von einer Korrektur- und Veröffentlichungsplattform zu einer 
Forschungsplattform entwickelte. Mit CAB (Cascaded Analysis Broker; vgl. dazu 
Jurish 2012), einem Werkzeug zur Normalisierung historischer Schreibweisen, 
wird eine schreibweisentolerante Volltextsuche über alle Texte des DTA bereit- 
gestellt. Mit der Integration von GermaNet (Hamp & Feldweg 1997; Henrich & 
Hinrichs 2010), einer lexikalischen Ressource, die Substantive, Verben und Ad- 
jektive nach Bedeutungsähnlichkeit in SynSets zusammenfasst, wird darüber 
hinaus auch die Volltextsuche nach semantischen Kategorien ermöglicht. Fer- 
ner stehen eine Reihe von lexikometrischen Analysewerkzeugen zur Verfü- 
gung, insbesondere zu zeitlichen Verläufen von Wortfrequenzen, zu diachro- 
nen Kollokationen sowie eine auf den Voyant-Tools basierende quantitative 
Textanalyse (siehe hierzu Abschnitt 3). 

Die Integration von Texten in das DTA stellt keine Einbahnstraße dar: Alle 
Texte des DTA stehen unter einer offenen Lizenz und können damit ohne 
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Abb. 10.1: Die Forschungsumgebung DTA. 


Weiteres als Ganzes in wissenschaftlichen Kontexten nachgenutzt werden. 
Aufgrund der durch die Kodierung in DTABf gewährleisteten Interoperabilität 
können alle Texte des DTA darüber hinaus einfach in verschiedene Formate 
konvertiert werden (siehe Abschnitt 2.1). Seit 2014 ist das DTA fest in die 
CLARIN-Infrastruktur eingebunden. Die Möglichkeiten der Kooperation und 
der Nachnutzungen konnten dadurch weiter ausgebaut werden (siehe Ab- 
schnitt 4.2). Das DTA hat sich seitdem zu einer vollwertigen Forschungsplatt- 
form entwickelt, zu der Nutzerinnen und Nutzer entweder als Korpusproduzen- 
ten beitragen oder die sie als Plattform für die Textanalyse verwenden können. 
Abbildung 10.1 fasst die verschiedenen Komponenten zusammen, in deren 
Zentrum DTAQ als Korrektur-, Publikations- und Analyseplattform steht. Auf 
der einen Seite befinden sich die verschiedenen Korpusproduzenten (Geistes- 
und Sozialwissenschaftler und -wissenschaftlerinnen, Bibliotheken und außer- 
akademische Initiativen wie beispielsweise Wikisource), auf der anderen Seite 
stehen Editionsumgebungen und Produzenten von Editionen. Die ‚klassische‘ 
Nutzung von DTAQ besteht in der kollaborativen Annotierung von Texten. Alle 
Texte des DTA können jederzeit korrigiert und annotiert werden, und die stets 
aktuelle Fassung kann aus der Plattform exportiert werden. Die vierte Kompo- 


222 — A. Geyken, M. Boenig, S. Haaf, B. Jurish, C. Thomas und F. Wiegand 


nente stellt schließlich die Analyse dar, mit den bereits erwähnten Werkzeugen 
CAB und GermaNet zur linguistischen Annotation, den verschiedenen Analyse- 
werkzeugen und den Exportformaten zur flexiblen Nachnutzung in anderen 
Kontexten. 


2 Ressourcenaufbau und Annotation 


2.1 Datengrundlage und Annotationsformat: DTA-Basisformat 
(DTABF) 


Um den Ansprüchen des DTA für eine möglichst vorlagengetreue Transkription 
historischer Quellen gerecht zu werden und gleichzeitig die Erfassung detail- 
reicher Metadaten und umfangreicher Annotationen logischer und layout- 
bezogener Strukturen zu ermöglichen, wurde das DTA-Basisformat (DTABf) - 
ein auf den P5-Richtlinien der Text Encoding Initiative (TEI) basierendes XML- 
Format? - entworfen. Das DTABf stellt eine echte Teilmenge der von der TEI 
vorgegebenen Richtlinien zur Kodierung von Textdokumenten dar, d.h. das 
Tagset der TEI wurde hinsichtlich der verfügbaren Elemente und Attribute 
reduziert und hinsichtlich der Attribut-Werte spezifiziert (Haaf, Geyken & 
Wiegand 2014/2015; Geyken et al. 2012). Dadurch ist die volle Kompatibilität 
auch mit anderen TEI-basierten Projekten gewährleistet. 

Das DTABf-Annotationsschema (RNG?) für historische Drucke (und weitere 
Dokumentklassen wie Zeitungen und Handschriften, vgl. Haaf & Schulz 2014; 
Haaf & Thomas 2016 [2017]) bildet zusammen mit einer umfangreichen 
Dokumentation und einem Schematron-Regelsatz die Grundlage für die XML- 
Auszeichnung aller Werke im DTA. Mithilfe von Konvertierungstools können 
aus DTABf-Dokumenten zahlreiche weitere Formate für die Weiterverarbeitung 
mit linguistischen Werkzeugen, für Suchmaschinenindizes, zur Präsentation 
der Texte (z.B. Lesefassungen für verschiedene Medien) und zum Export (z.B. 
in Zitationsumgebungen, Graphdatenbanken oder im CLARIN-Kontext für 
WebLicht*) automatisch erzeugt werden. 

Mit dem DTABf als Leitfaden für die Auszeichnung der vielfaltigsten Phä- 
nomene in historischen Textressourcen ist eine Brücke geschaffen worden, um 


2 TEI P5 Guidelines: http://www.tei-c.org/Guidelines/P5/ (letzter Zugriff: 6.11. 2017). 
3 RELAX NG (RNG): http://relaxng.org/ (letzter Zugriff: 6.11. 2017). 
4 WebLicht: https://weblicht.sfs.uni-tuebingen.de/ (letzter Zugriff: 6.11. 2017). 
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auch Editionen im DTA nutzbar zu machen. Das DTABf wird von der Deutschen 
Forschungsgemeinschaft nicht nur fiir die Textauszeichnung in historischen 
Sprachkorpora sondern auch als Basisformat für Editionen empfohlen. Die 
Quelldateien des DTABf-Schemas und der Dokumentation stehen unter einer 
freien Lizenz zur Nachnutzung zur Verfiigung.® 


2.2 Die kollaborative Qualitätssicherungsumgebung DTAQ 


Jedes Werk im DTA bildet eine Einheit aus drei Komponenten: Metadaten, Bild- 
digitalisate und Textdigitalisat. In der DTA-Infrastruktur werden diese Daten 
in entsprechenden Datenbanken und Speichersystemen vorgehalten. Diese 
werden dann auf der Präsentationsebene miteinander verknüpft. Um den ver- 
schiedenen Zugangsweisen, Sichten und Darstellungsformaten gerecht zu wer- 
den, sind dem Einspielen eines Werks in die DTA-Infrastruktur zunächst (auto- 
matisierte) Vorarbeiten vorangestellt: 

1. Die Metadaten werden in eine SQL-basierte Datenbank überführt. Dadurch 
wird später eine gezielte und äußerst flexible Suche über diese Daten mög- 
lich. Da der Bestand des DTA auch von anderen Webdiensten regelmäßig 
abgefragt wird, werden dafür Metadaten in den Formaten Dublin Core,’ 
CMDI® und EPICUR? erstellt und diese über Schnittstellen wie OAI-PMH, !° 
BEACON" etc. zur Verfügung gestellt. 

2. Die Bilddigitalisate werden für die Darstellung im Web in das JPEG- 
Format konvertiert. Dabei werden verschiedene Auflösungen einer 
jeden Dokumentseite erstellt: Für Vorschaubilder, die Einzeldarstellung 
in der Text-Bild-Ansicht und hochauflösend, um Details genauer betrach- 
ten zu können. 


5 Vgl. die Handreichungen DFG 2015a und DFG 2015b. 

6 Zugänglich unter https://github.com/deutschestextarchiv/dtabf (letzter Zugriff: 6.11. 2107); 
vgl. auch Haaf (2017). 

7 Dublin Core Metadata Initiative: http://dublincore.org/ (letzter Zugriff: 6.11. 2017). 

8 Component MetaData Infrastructure (CMDI): https://www.clarin.eu/content/component- 
metadata (letzter Zugriff: 6.11. 2017). 

9 Enhancement of Persistent Identifier Services: Comprehensive Method for Unequivocal 
Resource Identification (EPICUR): http://www.dnb.de/DE/Wir/Projekte/Archiv/epicur.html 
(letzter Zugriff: 6. 11. 2017). 

10 Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH): https://www. 
openarchives.org/pmh/ (letzter Zugriff: 6. 11. 2017). 

11 BEACON: https://de.wikipedia.org/wiki/Wikipedia:BEACON (letzter Zugriff: 6.11. 2017). 


224 — A. Geyken, M. Boenig, S. Haaf, B. Jurish, C. Thomas und F. Wiegand 


3. Das Textdigitalisat wird in einzelne Textseiten (jeweils ein XML-Dokument) 
zerlegt, da bei größeren Werken mit mehreren hundert Seiten eine Extrak- 
tion der entsprechenden Daten zur Laufzeit (z. B. während des Abrufs einer 
bestimmten Seite in der Text-Bild-Ansicht) nicht performant möglich wäre. 
Des Weiteren wird eine Reintextfassung (d.h. die reine Transkription mit 
Zeilenumbrüchen und Absätzen, aber ohne jegliche Annotation) und eine 
Dokumentfassung für die Indizierung mit der Suchmaschine DDC erstellt. 
Da die Seitenzerlegung verlustfrei erfolgt, lässt sich aus den Einzelseiten 
jederzeit wieder das gesamte XML-Dokument erzeugen. 


DTAO ist eine Webanwendung, die weit mehr als nur die Präsentation einzel- 
ner Werke ermöglicht. Sie beinhaltet eine Nutzerverwaltung, die mithilfe von 
Rollen und Rechten mehrere Ebenen von Zugriffen und Annotationsoptionen 
für verschiedene Nutzergruppen anbietet. Nutzerinnen und Nutzer von DTAQ 
registrieren sich mit einem personalisierten Account auf der Plattform und 
können dabei verschiedene Expertisen (Expertise in Literatur- bzw. Sprach- 
geschichte, Fremdsprachenkenntnisse, Fachkenntnisse in der Transkription 
mathematischer Formeln u.a.) angeben. Das ermöglicht es, bei Zweifelsfällen 
oder schwierigen Textstellen gezielt andere Nutzerinnen und Nutzer mithilfe 
des Ticketsystems anzusprechen und so kollaborativ an den Dokumenten zu 
arbeiten. Zudem ist so eine Arbeit im Team problemlos möglich, indem be- 
stimmte Arten von Fehlern gezielt einzelnen Nutzer und Nutzerinnen zugewie- 
sen werden können. Die Personalisierung ermöglicht es auch, die eigenen 
Wünsche in Hinsicht auf die Darstellung in DTAQ für jeden Account zu spei- 
chern, unter anderem die optimale Text- und Bildbreite oder die präferierte 
Textansicht u.v.a. 

Als ‚aktives Archiv‘ ermöglicht es das Deutsche Textarchiv mittels DTAQ, 
dass Nutzerinnen und Nutzer auch Bearbeitungen an den Textdigitalisaten 
selbst vornehmen können. Die Ablage der XML-Quellen in einem Versionie- 
rungssystem (git!) gewährleistet dabei zu jeder Zeit die Transparenz und 
Nachvollziehbarkeit der Genese eines digitalen Werks. Mithilfe zweier Online- 
Editoren (im sogenannten WYSIWYG-Modus” oder auch direkt im XML- 
Quelltext) können Nutzerinnen und Nutzer nachträglich Fehler korrigieren 
sowie zusätzliche Annotationen hinzufügen. 


12 git: https://git-scm.com/ (letzter Zugriff: 6. 11. 2017). 
13 WYSIWYG: What you see is what you get (man kann also direkt in der Präsentationsform 
der Texte ändern). 
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Technisch steht hinter DTAQ ein Webframework (Perl!*, Catalyst’), das 
mithilfe einer PostgreSQL-Datenbank!® und XML-/XSLT”-Tools ein kom- 
fortables, effizientes Arbeiten mit dem Dokumentenbestand ermöglicht. 


2.3 Erstellen und Kuratieren DTABf-konformer Textressourcen 


Das DTA bietet seinen Nutzerinnen und Nutzern eine Vielzahl von Hilfsmitteln, 
um (historische) Textressourcen zur Integration in die DTA-Infrastruktur von 
Grund auf neu zu erarbeiten bzw. bestehende Daten zu kuratieren und damit 
DTABf-konform zu machen. Diese Hilfsmittel decken alle Bereiche der Erstel- 
lung bzw. Bearbeitung digitaler Volltexte ab: Verschiedene Werkzeuge bzw. 
Webservices unterstützen Forscherinnen und Forscher von der Metadaten- 
erfassung über die Transkription und weitere Annotation der Volltextdaten 
sowie deren Konvertierung in eine lesefreundliche HTML-Ansicht. Das DTA 
unterstützt somit den gesamten Lebenszyklus digitaler Dokumente von der Er- 
stellung über die Datenkonvertierung und -kuration (Digital Curation, vgl. dazu 
im Kontext des DTA/CLARINs Thomas & Wiegand 2015) bis hin zur Publikation 
und Analyse und dient damit als Textbearbeitungs- und Analyseplattform für 
(historische) Textressourcen. Anschließend an die Integration erfolgt die auto- 
matisierte computerlinguistische Erschließung der Daten, die somit unmittel- 
bar im Kontext des DTA-Korpus genutzt werden können (siehe Abschnitt 3). 
Durch diese und weitere Hilfsmittel, zusätzlich unterstützt durch die mit zahl- 
reichen Beispielen versehenen Richtlinien zur Transkription!® sowie die um- 
fangreiche, ebenfalls mit Beispielen aus den DTA-Korpora illustrierte Doku- 
mentation zum DTABf,!? werden Nutzerinnen und Nutzer somit in die Lage 
versetzt, Schritt für Schritt ihre Textressourcen standardkonform aufzuberei- 
ten. 

Um Primärquellen in DTABf-konformer Weise von Grund auf neu zu erfas- 
sen, bietet es sich an, mit der über die Seiten des DTABf bereitgestellten XML- 
Vorlagendatei?° zu beginnen und diese sukzessive um die Metadaten und 


14 The Perl Programming Language: https://www.perl.org/ (letzter Zugriff: 6. 11. 2017). 

15 Catalyst Web Framework: http://www.catalystframework.org/ (letzter Zugriff: 6.11. 2017). 
16 PostgreSQL: https://www.postgresql.org/ (letzter Zugriff: 6.11. 2017). 

17 Extensible Stylesheet Language Transformations (XSLT): https://www.w3.org/TR/xslt 
(letzter Zugriff: 6.11. 2017). 

18 Siehe http://www.deutschestextarchiv.de/doku/basisformat/transkription (letzter Zugriff: 
6.11. 2017). 

19 Siehe http://www.deutschestextarchiv.de/doku/basisformat (letzter Zugriff: 6.11. 2017). 

20 Siehe http://www.deutschestextarchiv.de/files/vorlage_basisformat.xml (letzter Zugriff: 
6.11. 2017). 
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annotierte Transkription der Quelle zu ergänzen. Die Vorlagendatei ist TEI- 
basiert und bildet die vorgeschriebene Grundstruktur jedes TEI-Dokuments”! 
ab. In der Datei bereits eingebunden sind bereits das DTABf-RNG-Schema, 
gegen das die Dokumente hinsichtlich der verwendeten Elemente und Attribut- 
Wert-Paare sowie deren korrekter Strukturierung und Schachtelung validiert 
werden, und ein entsprechender Schematron-Regelsatz, der weitere formale 
Festlegungen enthält.” Bei handschriftlichen Vorlagen sollte das spezifizierte 
RNG-Schema zum DTABf für Manuskripte (DTABf-M)? eingebunden werden. 
Als zusätzliche Arbeitserleichterung steht ein Webformular zur Erstellung 
DTABf-konformer TEI-Header zur Verfügung, über das die relevanten Angaben 
komfortabel erfasst werden können und aus dem heraus schließlich per Knopf- 
druck ein vollständiger, in sich valider TEI-Header erzeugt werden kann.* 

Auch für die auf die Erstellung des XML-Dokuments folgenden Arbeits- 
schritte bietet das DTA hilfreiche Tools und Anwendungen an: Beispielsweise 
können die im DTA entwickelten XSLT-Stylesheets, mit deren Hilfe die XML- 
Datei in ein HTML-Format umgewandelt wird, genutzt werden, um eine 
lesefreundliche, an die spätere Darstellung auf der DTA-Seite angelehnte 
‚Vorschauansicht‘ des DTABf-Dokuments im Browser zu generieren. Andere 
kleine Tools dienen beispielsweise dazu, die fortlaufende Nummerierung der 
aufeinanderfolgenden <pb/>-Elemente (d.h. die fortlaufende Nummerierung 
der Digitalisate der Vorlage) in der Datei (wieder-)herzustellen - eine ansonsten 
mühsame Handarbeit — oder die im Dokument enthaltenen Sonderzeichen” 
automatisch in die entsprechenden numerischen Entitäten für Zeichenverweise 
in der Form &#xNNNN; zu überführen. 


21 Vgl. http: //www.deutschestextarchiv.de/doku/basisformat/grundstrukturDokument (letzter 
Zugriff: 6. 11. 2017). 

22 Vgl. allgemein Regular Language Description for XML New Generation (RELAX NG) und 
ISO Schematron, unter: http://relaxng.org/; http://schematron.com/ (letzter Zugriff: 6.11. 
2017). Speziell zu deren Verwendung und Handhabung innerhalb des DTABf die Dokumentati- 
on unter http://www.deutschestextarchiv.de/doku/basisformat/benutzungDTABfSchema (letz- 
ter Zugriff: 6.11. 2017) sowie Haaf (2017). 

23 Vgl. zum DTA-Basisformat für Manuskripte (DTABf-M) die Dokumentation unter http:// 
www.deutschestextarchiv.de/doku/basisformat/manuskript (letzter Zugriff: 6.11. 2017) sowie 
Haaf & Thomas (2016 [2017]). 

24 Verfügbar unter http://www.deutschestextarchiv.de/dtae/submit/clarin (letzter Zugriff: 
6.11. 2017). 

25 D.h. diejenigen, die außerhalb des Bereichs der am häufigsten verwendeten Unicode- 
Zeichen (kleinergleich U+00FF) liegen und daher oft zu Darstellungs-, Verarbeitungs- oder 
Dekodierungsfehlern führen. 
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In ähnlicher Weise wie für die im bisherigen Teil dieses Abschnitts be- 
schriebene Neuerstellung DTABf-konformer Ressourcen können die vorgestell- 
ten Hilfsmittel - allen voran das RNG-Schema und der Schematron-Regelsatz, 
ggf. aber auch die hier vorgestellten Skripte, Tools und Webservices — zur 
Kuratierung externer Ressourcen genutzt werden. Dabei werden externe Text- 
ressourcen in das DTABf konvertiert und anschließend via DTAQ in die Korpus- 
infrastruktur integriert. Beispielsweise wurden im Rahmen eines von CLARIN-D 
geförderten Kurationsprojekts historische Textressourcen des 15.-19. Jahrhun- 
derts aus verschiedenen Quellen in das DTA integriert.?° (Konkrete Beispiele 
für integrierte externe Ressourcen finden sich in Abschnitt 4.2.) 

Ein weiteres, im Rahmen von DTAQ bereitgestelltes Hilfsmittel dient dazu, 
die auf dem beschriebenen Weg erstellten, DTABf-konform annotierten Doku- 
mente hinsichtlich der historischen Schreibweisen zu ‚normalisieren‘.”” Dieser 
Service spricht den CAB-Webservice”® an, um für die historischen Schreib- 
weisen im Text ein modernes Äquivalent zu ermitteln. Die Anreicherung des 
Textes mit den modernisierten Formen wird gemäß editorischen Konventionen 
mit Hilfe der TEI-Elemente <choice>, <orig> und <reg> dokumentiert. Das Ele- 
ment <reg> wird dabei zusätzlich mit dem Attribut-Wert-Paar @resp="#cab" als 
automatisierter, d.h. eben vom Webservice CAB verantworteter Eingriff ge- 
kennzeichnet. Beispielsweise wird die Transkription der Phrase ,,EJne fefte 
Burgk ift vnfer GOtt/ xc.“?? vollautomatisch annotiert als: 


<choice><orig>EJne</orig> 

<reg resp="#cab">Eine</reg></choice> 
<choice><orig>fefte</orig> 

<reg resp="#cab">feste</reg></choice> 
<choice><orig>Burgk</orig> 

<reg resp="#cab">Burg</reg></choice> 
<choice><orig>ilt</orig> 


26 Vgl. zu diesem Projekt http://deutschestextarchiv.de/doku/clarin_kupro_publikationen 
(letzter Zugriff: 6.11. 2017) bzw. Thomas & Wiegand (2015). 

27 Dieser Webservice sowie alle im vorhergehenden Absatz erwähnten und weitere DTAQ- 
Tools sind verfügbar unter http://www.deutschestextarchiv.de/dtaq/tool (letzter Zugriff: 6.11. 
2017). 

28 Vgl. DTA::CAB Web Service v1.82, http://www.deutschestextarchiv.de/cab/ (letzter Zugriff: 
6.11. 2017). 

29 Vgl. zu diesem leicht modifizierten Textbeispiel [N. N.]: Jubilaeum Typographorum Lipsien- 
sium Oder Zweyhundert-Jähriges Buchdrucker JubelFest. [Leipzig], 1640, S. [19]. In: Deutsches 
Textarchiv, http://www.deutschestextarchiv.de/oa_jubilaeum_1640/27 (letzter Zugriff: 6.11. 
2017). 
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<reg resp="#cab">ist</reg></choice> 
<choice><orig>vnfer</orig> 

<reg resp="#cab">unser</reg></choice> 
<choice><orig>GOtt</orig> 

<reg resp="#cab">Gott</reg></choice>/ 
<choice><orig>ac.</orig> 

<reg resp="#cab">etc.</reg></choice> 


Auf diese Weise können auf denkbar einfache Art und unabhängig von bzw. 
noch vor der Integration der Texte in die DTA-Infrastruktur schreibweisen- 
normierte Fassungen der vorlagengetreuen Transkriptionen historischer Text- 
zeugen erstellt werden, die dann wiederum zur Bearbeitung mit externen, für 
gegenwartssprachliche Texte optimierten Anwendungen - beispielsweise zur 
Eigennamenerkennung oder Topic Modeling — genutzt werden können. 


2.4 Arbeiten in DTAQ 


Die Veröffentlichung der Ressourcen erfolgt zunächst auf der passwort- 
geschützten DTAQ-Plattform. Hier findet die summative Qualitätssicherung” 
statt, d.h. die Text-Bild-Zuordnung, die Transkription und Annotation usw. 
können webbasiert und kollaborativ geprüft werden. Für jedes Dokument wird 
eine eigene Startseite erstellt, auf der die bibliographischen Metadaten und 
weitere relevante Informationen zur Quelle, einschließlich der zugrunde 
gelegten Text- und Bildvorlagen, der Lizenz für die Nachnutzung, der Korpus- 
zugehörigkeit des Dokuments, der Bearbeiter der digitalen Edition sowie die 
dabei ggf. verbliebenen Abweichungen der Transkription bzw. der Annotation 
von den DTA-Vorgaben zusammengefasst sind. Zu beiden Bereichen, d.h. den 
allgemeinen Informationen und den bibliographischen Metadaten, können 
über einen Browserdialog Anmerkungen und Berichtigungen hinzugefügt wer- 
den. Unter Ansichten stehen in der Korrekturumgebung DTAQ bzw., sobald das 
Dokument freigeschaltet ist, auf der DTA-Webseite neben dem Zugang zur 
Text-Bild-Ansicht unter anderem verschiedene, automatisch aus dem TEI-XML 
generierte Download-Formate sowie eine Reihe analytischer Zugänge bereit. 
Mit der linguistischen Suchmaschine DDC und der grep-Suche werden parallel 
zwei Volltextsuchen angeboten. 


30 Vgl. für eine ausführliche Darstellung der formativen und summativen Qualitätssicherung 
im DTA Geyken et al. 2012. 
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Ein automatisch aus der <div>-Strukturierung des Dokuments erzeugtes 
Inhaltsverzeichnis erlaubt das gezielte Ansteuern bestimmter Textpassagen. 
Durch Klick auf einen Inhaltsabschnitt, auf die Ansicht Korrekturumgebung 
oder auf das Faksimile des Titelblatts gelangt man von dieser Startseite aus 
zur Text-Bild-Ansicht in DTAQ. Neben dem Faksimile der Vorlage in der ersten 
Spalte der dreiteiligen Ansicht wird in der mittleren Spalte die Transkription 
des Textes der entsprechenden Seite angezeigt. Fiir die Textansicht sind ver- 
schiedene Optionen wählbar: die XML-Ansicht, eine reine Textansicht, die 
CAB-Ansicht mit der automatisch durchgeführten orthographischen Normali- 
sierung der zugrundeliegenden Transkription, eine erweiterte Ansicht der Part- 
of-Speech-Analyse sowie der Lemmatisierung. 

Zur Überprüfung des Texts eignet sich die standardmäßig angezeigte 
HTML-Fassung am besten.” In dieser lesefreundlichen, per XSLT aus dem XML 
erstellten Textansicht lassen sich nun die bei dem jeweiligen Korrekturgang 
gefundenen Transkriptions-, Auszeichnungs- oder Druckfehler mittels soge- 
nannter Tickets melden. Die gemeldeten Tickets enthalten neben dem Fehler- 
typ, der fehlerhaften Textstelle, einem Vorschlag zur Behebung des Fehlers 
und ggf. weiteren Kommentaren zugleich auch die Angaben zum Zeitpunkt der 
Erfassung und zum DTAQ-Account, durch den die Meldung angelegt wurde. 
Beobachtungen, die sich nicht nur auf die jeweilige Seite, sondern das gesamte 
Dokument beziehen, können entsprechend gekennzeichnet werden. Darüber 
hinaus ist es möglich, dem Ticket eine mehr oder weniger hohe Priorität zuzu- 
ordnen und dieses einer bestimmten Bearbeiterin bzw. einem bestimmten Bear- 
beiter zuzuweisen. Anschließend wird der Korrekturstatus der Seite gekenn- 
zeichnet, d. h. ob die Überprüfung auf der Ebene des Textes, eines punktuellen 
Vergleichs von Transkription und Faksimile und/oder auf der Ebene der XML- 
Annotation durchgeführt wurde. Die gemeldeten Fehler werden so anhand der 
Beschreibungen in den Tickets vom DTA-Team geprüft und entsprechend 
direkt in den XML-Dokumenten behoben. 

Eine andere Möglichkeit, die auch durch DTA-externe Nutzerinnen und 
Nutzer zur sukzessiven Korrektur bzw. Kuratierung der Ressourcen direkt in 
der webbasierten DTAQ-Oberfläche genutzt werden kann, sind die beiden in- 
tegrierten Online-Editoren, die optional bereitgestellt werden. Der einfache 
WYSIWYG-Editor bietet die Möglichkeit, innerhalb der HTML-Ansicht Änderun- 
gen auf der Textoberfläche, insbesondere also bei Transkriptionsfehlern, vor- 
zunehmen. Die vorgenommenen Änderungen werden im Zuge der Speicherung 
automatisch dokumentiert und versioniert. Der parallel dazu angebotene XML- 


31 Vgl. zu diesem Abschnitt abermals Geyken et al. (2012) sowie Haaf & Thomas (2016: insbes. 
227 £.). 


230 — A. Geyken, M. Boenig, S. Haaf, B. Jurish, C. Thomas und F. Wiegand 


Editor erlaubt Anderungen, die (auch) das strukturelle und typographische 
Markup der Dokumente betreffen; hier können beispielsweise manuelle Nor- 
malisierungen vorgenommen oder Druckfehler in dokumentierter Weise mit- 
tels der TEI-Elemente <choice>, <sic> und <corr> behoben werden: 


zuletzt gelesen - Hilfe - Zufalissaite | Profit | ausloggen 


D) Be weinen Belew (Papag. oe WE p 358) hat sich Me, m Mem. 
bode noch beuimaner über die Naga sonedtehty Noas warnen 
pat crowed des wentigen Longis mar Ùz face extirivare ot ir bard dea 
maarenres, qui mar vntierement Rives mir de posits rodomos Comp. 
den parvisosiont ò la treiviime phatonge, birpdan Ge ia poan den 

ia einer Kamtocer ra derem Mammcripés astervchetdet 
der The, Vert, den Manath den Orinoke durch Ge Bebas 
in 


Hersungeber 


i 
t 


Abb. 10.2: XML-Editor in DTAQ mit geöffnetem Browserdialog (Wrap-Tag-Funktion), http:// 
www.deutschestextarchiv.de/dtaq/book/view/humboldt_manati_1838?p=9&view=xmleditor 
(letzter Zugriff: 6.11. 2017) 


Neben der farblich differenzierten Syntaxhervorhebung und der Wrap-Tag- 
Funktion, die Nutzerinnen und Nutzer von etablierten Programmen wie dem 
oXygen XML Editor gewohnt sind, bietet die rechte Spalte eine Anzahl häufig 
genutzter Sonderzeichen und Tags zur Auswahl, die die Bearbeitung der Doku- 
mente direkt im XML-Modus erleichtern. Vorgenommene Änderungen auf der 
XML-Ebene werden zunächst auf ihre Wohlgeformtheit und auf ihre Validität 
hin gegen das DTABf-Schema geprüft, um sicherzustellen, dass keine in dieser 
Hinsicht ungültigen Änderungen in den XML-Dokumenten vorgenommen wer- 
den; anschließend werden die formal korrekten Änderungen im XML-Dokument 
gespeichert und ebenfalls versioniert. 

Durch die beiden webbasierten, direkt in DTAQ eingebundenen Editoren 
lassen sich nun nicht nur die bereitgestellten Quellen sehr viel komfortabler 
und mit Unterstützung auch DTA-externer Nutzerinnen und Nutzer korrigieren. 
Sie ermöglichen darüber hinaus auch eine effiziente und fortlaufende Verfeine- 
rung bzw. Vertiefung der Annotation insgesamt. So wurden beispielsweise im 
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Kooperationsprojekt Hidden Kosmos?? zunächst alle Manuskripte des Korpus 
DTABf-konform transkribiert, hinsichtlich der wesentlichen Struktur- und 
graphematischen Merkmale ausgezeichnet und in DTAQ publiziert. Anschlie- 
Bend erfolgte nicht nur die Qualitätssicherung und Korrektur von Transkripti- 
ons- und Auszeichnungsfehlern direkt in DTAQ, sondern wurden innerhalb des 
etwa 3.500 Seiten umfassenden Korpus auch sämtliche vorkommenden Perso- 
nennamen explizit ausgezeichnet. Die insgesamt mehr als 8.000 Personen- 
namen wurden mit einem <persName>-Tag versehen und, soweit möglich, mit- 
tels des @ref-Attributs mit einem eineindeutigen Identifizierer aus einem 
Normdatensatz?? versehen. Das so erzeugte, umfassende Personenregister’ 
konnte dank des webbasierten XML-Editors ortsunabhängig vom Projektteam 
an der Humboldt-Universität erstellt werden. In ähnlicher Weise wurden inner- 
halb des DFG-Projekts AEDit Frühe Neuzeit?” etwa 340 Leichenpredigten mit 
mehr als 16.000 Seiten im Team der Kooperationspartner BBAW, Herzog 
August Bibliothek Wolfenbüttel (HAB) und der Forschungsstelle für Personal- 
schriften an der Philipps-Universität Marburg von den verschiedenen Stand- 
orten aus kollaborativ online bearbeitet. 


3 Analysewerkzeuge im DTA 


3.1 Linguistische Datenanalyse im DTA 


Für bestimmte Anwendungsbereiche der Auswertung der Korpora im DTA wer- 
den bereits über die DTA-Plattform eigene Werkzeuge angeboten. Auf diese 
Weise können die DTA-Daten hinsichtlich verschiedener Phänomentypen ana- 
lysiert werden, ohne dass sie heruntergeladen und mit externen Tools ver- 


32 Vgl. Humboldt-Universität zu Berlin: Hidden Kosmos - Reconstructing Alexander von 
Humboldt’s “Kosmos-Lectures”, http://www.culture.hu-berlin.de/hidden-kosmos (letzter Zu- 
griff: 6.11. 2017). 

33 Genutzt wurde vorzugsweise die Gemeinsame Normdatei (GND), vgl. http://www.dnb.de/ 
DE/Standardisierung/GND/gnd_node.html (letzter Zugriff: 6.11. 2017); sofern keine Normdaten 
zu den betreffenden Personen in der GND verzeichnet waren, wurden alternativ die Datensätze 
aus dem Virtual International Authority File, https://viaf.org/ (letzter Zugriff: 6.11. 2017) oder 
Wikidata, https: //www.wikidata.org/wiki/Wikidata:Hauptseite (letzter Zugriff: 6. 11. 2017), ver- 
wendet. 

34 Verfügbar unter http://www.deutschestextarchiv.de/kosmos/person (letzter Zugriff: 6.11. 
2017). 

35 Vgl. dazu http://www.deutschestextarchiv.de/doku/textquellen#aedit (letzter Zugriff: 6.11. 
2017). 
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knüpft werden müssen. Das Potential der linguistischen Analyse auf der DTA- 
Plattform wird im Folgenden umrissen. 

Sämtliche Texte des DTA durchlaufen vollautomatisch eine Reihe linguis- 
tischer Verarbeitungsschritte, welche durch die Software CAB geleistet werden. 
CAB umfasst die Satzsegmentierung, Tokenisierung, Lemmatisierung, Moder- 
nisierung historischer Schreibweisen sowie das Part-of-Speech-Tagging gemäß 
STTS (Jurish 2012; Jurish & Würzner 2013). 

Die Ergebnisse der linguistischen Analyse können mithilfe der Suchanfrage- 
sprache DDC°® in die Korpusanalyse eingebunden werden. DDC ermöglicht die 
Formulierung komplexer Suchanfragen (Jurish, Thomas & Wiegand 2014).?7 
Insbesondere können damit linguistische Annotationen auf Wortposition 
(Lemmatisierung, POS-Tagging) mit Phrasensuche, Boole’schen Operatoren 
und regulären Ausdrücken verknüpft werden. 

Um die Analyseergebnisse für ein Token einzusehen sowie um zu überprü- 
fen, welches Lemma, Wortart bzw. welche orthographischen Varianten für die- 
ses Token automatisch ermittelt wurden, kann die Benutzeroberfläche des 
CAB-Webservice*® konsultiert werden. Hier ist z.B. einsehbar, dass das Token 
„Frewde“ dem Lemma „Freude“ sowie dem POS-Tag „NN“ (Appellativum) 
zugeordnet wird und es auf eine Vielzahl von möglichen orthographischen 
Varianten abgebildet wird, von „Frewdt“ über „fräud“ und „Freüd“ bis hin 
zu „fröude“, „fröide“ oder „vröide“.?? Vor allem aber kann der CAB-Webservice 
genutzt werden, um eigene Texte mit der CAB-Software zu analysieren. Für 
einen schnellen Einblick in die orthographische Normierung und das POS-Tag- 
ging im größeren Textzusammenhang steht die CAB- bzw. POS-Ansicht zu jeder 
Buchseite in DTAQ zur Verfügung. 


36 Dialing DWDS Concordancer (DDC), http://www.deutschestextarchiv.de/doku/software#ddc; 
vgl. Jurish, Thomas & Wiegand 2014. Zu den vielfältigen Möglichkeiten der Volltextsuche im 
DTA mit der DDC-Suchmaschine siehe auch die Hilfeseite http://www.deutschestextarchiv.de/ 
doku/DDC-suche_hilfe (letzter Zugriff: 6.11. 2017). 

37 Für die DDC-basierte Recherche in allen Korpora des Deutschen Textarchivs steht die Such- 
maske unter http://kaskade.dwds.de/dstar/dta (letzter Zugriff: 6.11. 2017) zur Verfügung. Hier 
lässt sich einschränken, ob im Gesamtkorpus oder in ausgewählten Teilkorpora recherchiert 
werden soll (sog. Flags). Die Korpora umfassen auch alle Texte in DTAQ. Zur DDC-Syntax vgl. 
als Einstieg http://www.deutschestextarchiv.de/doku/DDC-suche_hilfe (letzter Zugriff: 6.11. 
2017) sowie weiterführend http://odo.dwds.de/~jurish/software/ddc/querydoc.html (letzter 
Zugriff: 6. 11. 2017). 

38 Vgl. Anm. 27; Einstieg und Links zur Dokumentation: http://odo.dwds.de/~moocow/ 
software/DTA-CAB/doc/html/DTA.CAB.WebServiceHowto.html (letzter Zugriff: 6. 11. 2017). 

39 Vgl. http://www.deutschestextarchiv.de/demo/cab/query?a=expand&fmt=text&raw=1&q= 
Frewde (letzter Zugriff: 6. 11. 2017). 
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D*/DTA Search 
Hits 1 - 100 of 204 

-HTML -Hist | | Home| Query Lizard | Previous |Next | | Heip | “$leUteratur|gn-asi lesen” #random|35] womit | CabErr 

1 Wenn man jetzt die Artikel left, welche alle Tage die rulfilche Warichauer 
2 = = “ . feyn werden/ um deren willen man die Romanen lelen mite. 

3 Nortrefflich ist Goethens Hermann und Dorothea; seine Gedichte las ich noch nicht, sie sollen sehr. 

4 Buch; dann ließ er einen jeden ein Stück Jelen; wenn das vorbei war, fo. 

5 ein alter Edelmann eingekehrt, welcher die Thesterftücke gelelen, und mut [einem Beifall beehrt hatte 

Contulebutiichen 

6 ataoı 195414 des 2ten Teils werden nur von Kunstrichtern der Literatur gelesen werden — und weil sie keinen Bezug... 
7: Und ich glaube, wenn Joss diele Fabel lelen könnte, er würde lich über die 

@: [dtarmoritz reiserös 179 lich niederfetzte, und zur Mittagserholung in Homers Odyliee las. 

9 Bouhours, und die im mereur galant begriffene gedichte lelen: 

10; [dtargessser_bochdructerkunst03 174 Verichiedene Gedichte Iiet mann alsdenn. 

11 a 5 den Völkern gewelen, davon kann man gelammiete Nachrichten lelen in Schedil Tract 

12: [dta:arnisb goethed! 1 2 Da fie wieder zurückkam und ich das Mährchen Jelen wollte, lagte fie: 

13: = 2 Wer Romane heit, Gent die Welt im optiichen Kalten. 

14: [dratthomasius susuebungsite PFEIL genommen/ hernach biß zu Tilchzeit ineinen Roman gelelen/ bey der Mutags. 

15: ý & gerade nicht in lolchen Momenten, woman Romanen liefit, aufgeworten werden, die übrigen Foderungen 
16: atsupplus oden 174 é gut gemeynt; Der Tod låßt dir die Nachricht lelen, Der lelbiten die Verwandichaft töhrt; 
17: X _ und einige von den Chorichitern, welche Kleits Gedichte gelelen hatten, behaupteten gradezu, daß Ne. 
18: [dtargottsched versuch 1730:194 in einem Heldengedichte, wo man nur die Errehlungen lieit, kan es wohl wahricheinlicher klingen. 
19: daß er jetzt einen Roman, also eine Dichtung liest 


Abb. 10.3: DDC-Abfrage: "$1=Literatur|gn-asi lesen". 


Alle Texte der DTA-Korpora wurden mit einer Thesaurus-Funktion basierend 
auf dem Wortnetz GermaNet versehen. Über die Verknüpfung der Lemmata mit 
SynSets ist daher nun eine semantische Recherche möglich. Konkret können 
für ein Lemma dessen Hyperonyme, Hyponyme oder Synonyme im Korpus 
recherchiert werden (Abb. 10.3). 

Valide Expansionen sind dabei "gn-asi" (sämtliche Hyponyme zum gege- 
benen Lemma), "gn-isa" (entsprechend die Hyperonyme), "gn-syn" (entspre- 
chend die Synonyme). Die Suche kann auch auf die Hypero- und Hyponyme 
bestimmter Ordnungen ("gn-asi1", "gn-asi2") eingeschränkt werden. Neben 
GermaNet ist darüber hinaus auch der OpenThesaurus“? an die DTA-Korpora 
angebunden, sodass äquivalente Recherchen auf dem Datenmaterial dieses 
Thesaurus möglich sind.“ 


3.2 Visualisierung des zeitlichen Verlaufs mit Verlaufskurven 


Über die reine Korpusrecherche hinaus sind verschiedene lexikometrische 
Analysen über die DTA-Plattform möglich. So lässt sich etwa die relative Vertei- 
lung von (komplexen) Ausdrücken in den DTA-Korpora mit Hilfe einer Wort- 


40 Vgl. https://www.openthesaurus.de (letzter Zugriff: 6.11. 2017). 

41 Für eine Dokumentation zu den Thesaurus-Funktionalitäten im DTA vgl. http://odo.dwds.de/ 
~moocow/software/ddc/querydoc.html#dta_expand_gn (letzter Zugriff: 6. 11. 2017) bzw. http: // 
odo.dwds.de/~moocow/software/ddc/querydoc.html#dta_expand_ot (letzter Zugriff: 6. 11. 2017). 
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Abb. 10.4: Wortverlaufskurve für DDC-Abfrage: $1=merkwürdig. 


verlaufskurve darstellen, welche auf normierten Frequenzberechnungen und 
Glättungsverfahren beruht (Geyken et al. 2015).*° Für das Lemma „merkwür- 
dig“ wird so z.B. auf einen Blick deutlich, dass es in der Wissenschaftssprache 
des 19. Jahrhunderts signifikant häufig verwendet wurde (Abb. 10.4). Neben 
der Standardansicht kann auch eine Ansicht mit den Rohfrequenzen gewählt 
werden. In dieser lassen sich für jedes Jahr und jede Textsorte die absoluten 
Frequenzen nachvollziehen. Schließlich ermöglicht die erweiterte Ansicht die 
genaue Einstellung aller Parameter, wie beispielsweise der Zeitintervalle, der 
Glättungsumgebung oder des Konfidenzintervalls zur Bestimmung von Aus- 
reißern. Eine weitere Besonderheit der Wortverlaufskurve besteht darin, dass 
alle Ergebnisse an die Korpora zurückgebunden werden. Durch Klick auf jeden 
Messpunkt gelangt man zu den Korpus-Konkordanzen. Im Falle der Abbil- 
dung 10.4 kann man somit beispielsweise durch Klick auf das Maximum im 
Zeitintervall 1820-1829 erfahren, dass unter anderem die Nachschriften der 
Kosmos-Vorlesungen Alexander von Humboldts sowie Werke Johann Friedrich 
Blumenbachs hinter diesen hohen Trefferzahlen stehen. 


42 Die Wortverlaufskurve ist zugänglich unter http://www.deutschestextarchiv.de/search/ 
plot/ (letzter Zugriff: 6. 11. 2017). 


Das Deutsche Textarchiv als Forschungsplattform für historische Daten in CLARIN =—— 235 


3.3 Kollokationsanalyse mit DiaCollo 


Die weiterführende Untersuchung der Entwicklung von Wörtern in ihren lexi- 
kalischen Kontexten im zeitlichen Verlauf ist dann mit dem Werkzeug DiaCollo 
möglich (Jurish 2015; Jurish, Geyken & Werneke 2016, Lemnitzer, Jurish & 
Burkhardt 2016). DiaCollo ermittelt die statistisch signifikanten Kollokationen 
zu einem gegebenen Ausdruck in verschiedenen Zeitschnitten und visualisiert 
ihre Signifikanz mit einem Farbschema. Die Analyse kann dabei individuell 
parametrisiert werden. Zum Beispiel ist es möglich, die Größe der Zeitschnitte 
anzupassen, die Kollokate auf bestimmte POS-Tags zu beschränken oder die 
Menge der einbezogenen stärksten Kollokate (k-best-Wert) zu variieren. Ver- 
schiedene Visualisierungen stehen zur Verfügung, wie beispielsweise eine 
bubble-Ansicht, eine Ansicht als Schlagwortwolke oder die von Google ent- 
wickelte gmotion-Ansicht. 

Nutzt man z. B. DiaCollo, um die Nomen zu ermitteln, welche typische Kollo- 
kationen des Tokens „merkwürdig“ sind, so zeigt sich zunächst, dass ganz 
generell die Menge solcher typischen Nomen-Kollokationen zunimmt (d.h. dass 
sich die Kontexte, in welchen dieses Adjektiv typischerweise verwendet wer- 
den konnte, vervielfältigen). Des Weiteren wird deutlich, dass zwischen 1750 
und 1790 die „merkwürdige Begebenheit“ eine recht typische Wortverbindung 
war, während ab den 1820er Jahren bemerkenswert häufig von der „merk- 
würdigen Erscheinung“ die Rede ist (Abb. 10.5). Ebenso wie bei den in Ab- 


D*/public: DiaCollo 

ERY. mans 

oare(sy: mice 

SCORES lo Dee 0 + west anor 
PRONLE: cotocatorr +) FORMAT: Gout © GLO 


GROUPE. | DENN Tras: Cem: 
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Abb. 10.5: DiaCollo: typische Nomen-Kollokationen (GROUPBY: l,p = NN) zu „merkwürdig“ 
im Zeitschnitt 1820. 
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schnitt 3.2 beschriebenen Wortverlaufskurven ermöglicht auch DiaCollo die 
Riickbindung an die einzelnen Korpuskonkordanzen durch Klick auf die Kollo- 
kate. In Abbildung 10.5 wiirde beispielsweise der Klick auf das Kollokat ,,Er- 
scheinung“ zu einer Trefferliste mit den Konkordanzen führen. 


3.4 Quantitative Einzeltextanalyse mit Voyant Tools 


Schließlich werden die einzelnen Dokumente an die Voyant Tools* angebun- 
den, die für das jeweilige DTA-Werk über einen entsprechenden Unterpunkt 
auf der Buchstartseite erreicht werden können. Die XML-Volltexte aus dem DTA 
werden eigens zu diesem Zweck und ohne weiteren nutzerseitigen Aufwand 
präprozessiert, um eine nahtlose Verwendung und optimale Analyseergebnisse 

zu gewährleisten. Zur Analyse mit Voyant stellt das DTA drei spezielle XML- 

Fassungen zur Verfügung: 

1. Eine zeichennormierte Fassung (unicruftxml): Diese XML-Fassung bietet 
den Text in transliterierter Orthographie, d.h. in einer Fassung, in der alle 
Zeichen, die außerhalb der Latin-1-Kodierung (ISO/IEC 8859-1) liegen, 
durch Zeichen innerhalb von Latin-1 approximiert werden. Damit sind Pro- 
bleme bei der Voyant-seitigen Behandlung von Zeichen wie dem ‚langen s‘ 
(f, U+017F) oder dem ,hochgestellten e‘ (U+0364) zur Kennzeichnung von 
Umlauten ausgeschlossen. Abgesehen davon bleiben die Graphie der Vor- 
lage und auch die Silbentrennung am Seiten- und Zeilenende erhalten. 

2. Eine hinsichtlich der Schreibweisen normierte Fassung (normxml): Diese 
XML-Fassung bietet den Text ebenfalls Latin-I-approximiert (siehe 1.) und 
zusätzlich in normalisierter Orthographie basierend auf der Verarbeitung 
mit CAB. In diesem Zuge wird auch die Silbentrennung am Seiten- und 
Zeilenumbruch aufgelöst. 

3. Eine lemmatisierte Fassung (lemmaxml): Diese XML-Fassung bietet den 
Text in lemmatisierter Forma, wobei für die Lemmata ebenfalls mit nor- 
mierten Zeichen (nach 1.) und modernisierter Orthographie (nach 2.) wie- 
dergegeben werden. 


Über die Voyant Tools sind nun verschiedene Frequenzanalysen auf Dokument- 
ebene visualisierbar, so etwa Term- und Phrasenfrequenzen sowie Frequenz- 
entwicklungen für Terme (Trends) im Verlauf des Dokuments (Sinclair & Rock- 
well 2017). So können Terme hinsichtlich ihrer Bedeutung für das jeweilige 
Werk analysiert werden (Vgl. z.B. Bird, Menzies & Zimmermann 2015: 51). 


43 Vgl. https://voyant-tools.org/ (letzter Zugriff: 14.5. 2018). 
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Abb. 10.6: Voyant-Analyse von Keller, Gottfried: Der griine Heinrich. Bd. 1. Braunschweig, 
1854, basierend auf der normalisierten Textfassung, unter: http://www.deutschestextarchiv.de/ 
book/download_normxml/keller_heinrichO1_1854 (letzter Zugriff: 6. 11. 2017). 


4 Interdisziplinäre Vernetzung des DTA 


4.1 Verwertung von DTA-Daten in externen 
wissenschaftlichen Kontexten 


Die vorgestellten Analysewerkzeuge der DTA-Plattform ermöglichen bereits die 
Auswertung der DTA-Korpora in vielerlei Hinsicht. Zudem ist die weitere Nach- 
nutzung der Daten mithilfe externer Werkzeuge, die z.B. über die CLARIN- 
Infrastruktur bereitgestellt werden, möglich und selbstverständlich auch er- 
wünscht. Wesentliche Voraussetzung dafür ist zum einen die Interoperabilität 
der Daten untereinander, sodass diese vollautomatisch und jederzeit mit gerin- 
gem Aufwand in die jeweiligen Eingabeformate konvertiert werden können. 
Zum anderen ist diese Form der Nachnutzung besonders gut möglich, wenn 
sowohl bei den Daten als auch bei den Eingabeformaten der Werkzeuge stan- 
dardisierte Formate zur Anwendung kommen, die dokumentiert und leicht zu- 
ganglich sind. Diese beiden Voraussetzungen werden für die Korpusdaten des 
DTA durch das DTA-Basisformat erfüllt, das eine einheitliche und eindeutige 
Richtlinie für die Textauszeichnung darstellt und dabei auf den weit verbrei- 
teten TEI-Richtlinien basiert. 
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Für die freie Nachnutzung in externen Kontexten werden die DTA-Texte 
einzeln und als Korpus zum Download zur Verfügung gestellt.** Da sämtliche 
Daten einheitlich entsprechend dem DTA-Basisformat kodiert sind, können sie 
mit geringem Aufwand in andere Formate konvertiert werden. Über die DTA- 
Plattform werden die Texte außerdem bereits im TCF (Text Corpus Format; Heid 
et al. 2010) bereitgestellt, dem Eingangsformat für die CLARIN-Services (Eckart 
2012). Die bereitgestellten TCF-Dateien können zum Beispiel in die WebLicht- 
Plattform (Hinrichs, Hinrichs & Zastrow 2010)“ hineingeladen und dort mit 
den Tools verschiedener CLARIN-Zentren weiter analysiert werden. So stehen 
über WebLicht zum Beispiel weitere Tools zur linguistischen Vorverarbeitung 
(Tokenisierung, Lemmatisierung, POS-Tagging etc.), verschiedene Syntaxparser 
(z. B. Stanford Parser) sowie Tools zur morphologischen Analyse und zur Eigen- 
namenerkennung zur Verfügung. Bei der Nutzung von WebLicht können ver- 
schiedene Werkzeuge in Folge zur Anwendung kommen, wobei die Zusam- 
mensetzung der jeweiligen Werkzeugkette individuell bestimmt werden kann. 
Um genuine TEI-XML-Dateien in WebLicht weiterverarbeiten zu können, stellt 
die BBAW einen Converter als Webservice über WebLicht bereit, der die Kon- 
vertierung aus TEI nach TCF und die Rückkonvertierung nach TEI im An- 
schluss an die WebLicht-Analyse leistet.*° 

Des Weiteren sind die DTA-Korpora an die Föderierte Volltextsuche 
(Federated Content Search)“ von CLARIN angebunden und somit gemeinsam 
mit anderen CLARIN-Korpora direkt recherchierbar. Die Verbindung der DTA- 
Korpusdaten mit anderen Korpora im CLARIN-Verbund wird außerdem über 
die CLARIN-übergreifende Metadatenplattform VLO (Virtual Language Observa- 
tory)“® erreicht, welche durch die Bereitstellung von CMDI-Metadatensätzen 
zum Harvesting bedient wird (Wittenburg & Uytvanck 2012). 

Auch in anderen Umgebungen außerhalb CLARINs ist die Nachnutzung 
der DTA-Daten möglich und erprobt. Metadaten werden in den genannten For- 
maten und zusätzlich im Dublin-Core-Format über die OAI-PMH-Schnittstelle 
des DTA bereitgestellt und beispielsweise von der Europeana“? und der Biele- 


44 Einzelne Werke können über die jeweilige Buchstartseite in verschiedenen Formaten her- 
untergeladen werden; der Download des Korpus ist unter http://www.deutschestextarchiv.de/ 
download (letzter Zugriff: 6. 11. 2017) möglich. 

45 Zugänglich unter: https://weblicht.sfs.uni-tuebingen.de/ (letzter Zugriff: 6.11. 2017). 

46 Außerhalb WebLicht zugänglich unter: http://kaskade.dwds.de/tei-tcf/ (letzter Zugriff: 
6.11. 2017). 

47 Zugänglich unter: https://www.clarin.eu/contentsearch (letzter Zugriff: 6.11. 2017). 

48 Zugänglich unter: http://vlo.clarin.eu (letzter Zugriff: 6. 11. 2017). 

49 Vgl. http://www.europeana.eu (letzter Zugriff: 6. 11. 2017). 
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feld Academic Search Engine (BASE)*° abgefragt. Darüber hinaus harvesten 
einige Bibliotheken, welche die physischen Quellen der Werke im DTA vor- 
halten, Informationen zu den entsprechenden Werken im DTA und verlinken 
diese über ihren OPAC.°! 

Die DTA-Korpusdaten wurden außerdem bereits in andere Korpustools ein- 
gespeist. So wurde die TCF-Fassung des DTA-Korpus für ein entsprechendes 
Korpus-Add-on des Werkzeugs Corpus Explorer nachgenutzt, wobei die Infor- 
mationen zu Tokens, Lemmata, POS und Orthographie ausgewertet wurden.” 
Auch der Corpus Explorer bietet darauf aufbauend Syntax Parsing, Kookkurenz- 
analysen, Verlaufskurven u.a. an. Die Méglichkeit, mit CAB analysierte Daten 
in das Korpuswerkzeug TXM zu integrieren und dort weiter zu verarbeiten, 
wurde für Karl Philipp Moritz’ Werk Anton Reiser prototypisch realisiert.* 
Eine aktuelle Entwicklung bildet die Weiterentwicklung des Tools JCore, eines 
Werkzeugs zur Nutzung von NLP-Prozessketten in UIMA™, urspriinglich mit 
Fokus auf englischsprachiger biomedizinischer Wissenschaftsliteratur, fiir die 
deutsche Sprache. In diesem Zusammenhang entstand der DTA Collection 
Reader” (Hahn et al. 2016; Hellrich, Matthies & Hahn 2017). 

Das DTA-Kernkorpus wurde zudem in das Leipziger Werkzeug CTS 
(Canonical Text Service Protocol) integriert, wo es mit feingranularen persis- 
tenten IDs fiir die Zitation versehen wird und mit darauf aufbauenden 
Software-Werkzeugen (z.B. zur Alignierung von Textstellen unterschiedlicher 
Korpora) weiterverarbeitet werden kann (Tiepmar et al. 2016; Tiepmar et al. 
2017). Ferner wurde die TCF-Fassung des DTA-Korpus experimentell in eine 
Graph-Datenbank integriert (Kuczera 2017). Weiterhin bilden 633 Werke der 


50 Vgl. https://www.base-search.net/ (letzter Zugriff: 6. 11. 2017). 

51 So etwa die Staatsbibliothek zu Berlin (SBB-PK, http://staatsbibliothek-berlin.de/ [letzter Zu- 
griff: 6.11. 2017]) oder die Staats- und Universitätsbibliothek Göttingen (https://www.sub.uni- 
goettingen.de [letzter Zugriff: 6.11. 2017]); vgl. z.B. die entsprechende Verlinkung Kants Critik 
der reinen Vernunft (1781, http://www.deutschestextarchiv.de/kant_rvernunft_1781), abgerufen 
am 31.3. 2017 im OPAC der SBB-PK: http://stabikat.sbb.spk-berlin.de/DB=1/XMLPRS=N/ 
PPN?PPN=83453522X. 

52 Vgl. http://notes.jan-oliver-ruediger.de/korpora/; http://notes.jan-oliver-ruediger.de/dta- 
kernkorpus-als-korpus-addon-verfuegbar/ (letzter Zugriff: 6. 11. 2017). 

53 Vgl. https://groupes.renater.fr/wiki/txm-users/public/umr_ihrim_moritz (letzter Zugriff: 
6.11. 2017). 

54 Unstructured Information Management Architecture; http://uima.apache.org/ (letzter Zu- 
griff: 6.11. 2017). 

55 Zugänglich unter: https://github.com/JULIELab/jcore-base/tree/master/jcore-dta-reader 
(letzter Zugriff: 6. 11. 2017). 
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literarischen Moderne aus den DTA-Korpora einen Teil des Korpus KOLIMO 
(Herrmann & Lauer 2017).°° 

Für die Editionswissenschaften wurde seitens der Arbeitsgruppe TELOTA 
der BBAW die Editionsumgebung ediarum?” für das DTA-Basisformat ange- 
passt. Mit ediarum können TEI-XML-basierte Editionen im Autormodus des 
oXygen-XML-Editors erarbeitet werden. Die Kodierung und Verwaltung der Edi- 
tionsdaten erfolgt in einer eXist-Datenbank (Dumont & Fechner 2014/15). Im 
Rahmen des Vorhabens Alexander von Humboldt auf Reisen wird mit dieser 
Infrastruktur eine Edition nach DTA-Basisformat erstellt (Dumont et al. 2016).°® 


4.2 Nachnutzung externer wissenschaftlicher Daten im DTA 


Durch die Etablierung digitaler Arbeitsmethoden steigt in den Geisteswissen- 
schaften der Bedarf an digitalisierten Quellentexten. Dabei ist einerseits eine 
kritische Menge für wissenschaftlich fundierte Aussagen unerlässlich, wäh- 
rend andererseits der Bedarf in der Datenmenge nicht zulasten der Qualität 
gehen darf. Was also benötigt wird, sind umfangreiche, hochwertige und 
standardisiert aufbereitete Textsammlungen und Korpora. Solche Daten kön- 
nen nur mit hohem Aufwand erzielt werden, was wiederum der Nachfrage 
entgegenzustehen scheint. 

Auf der anderen Seite entstehen in unterschiedlichen Kontexten immer 
mehr solcher hochwertigen digitalen Daten, etwa im Rahmen von Editionen, 
in Form projekteigener oder für individuelle Forschungsarbeiten erarbeiteter 
Spezialkorpora oder als Textkollektionen der interessierten Community (z.B. 
Wikisource°?). Gerade seitens der quantitativen Linguistik entstehen schon seit 
langem solcherlei digitale Forschungsdaten, die jedoch teilweise in veralteten 
und/oder stark individualisierten Formaten vorliegen. Die Herausforderung be- 
steht nun darin, diese Forschungsdaten aus den verschiedenen Quellen zu er- 
mitteln, zu standardisieren und nach einheitlichen Richtlinien aufzubereiten, 
sodass sie als einheitliches Gesamtkorpus auswertbar werden. Im Rahmen des 
Moduls DTAE verfolgt das DTA diese Aufgabe (Thomas & Wiegand 2015).°° 
Dabei geht es um zweierlei: Einerseits werden Verfahren entwickelt, um Daten 


56 Zugang zur KOLIMO-Plattform unter: https://kolimo.uni-goettingen.de/index.html (letzter 
Zugriff: 6. 11. 2017). 

57 Vgl. http://www.bbaw.de/telota/software/ediarum (letzter Zugriff: 6.11. 2017). 

58 Zum Vorhaben vgl. http://avhr.bbaw.de/ (letzter Zugriff: 6. 11. 2017). 

59 Vgl. https://de.wikisource.org (letzter Zugriff: 6.11. 2017). 

60 Vgl. auch die DTAE-Projektseite: http://www.deutschestextarchiv.de/dtae/ (letzter Zugriff: 
6.11. 2017). 
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aus größeren Textsammlungen und verschiedenen Formaten (semi-)automa- 
tisch in das DTABf zu konvertieren. Andererseits werden Wissenschaftler und 
Wissenschaftlerinnen angehalten und geschult, ihre individuell erstellten 
Daten gemäß den etablierten DTA-Vorgaben aufzubereiten und idealerweise 
über die DTA-Plattform auch weiteren Forscherinnen und Forschern zur Ver- 
fügung zu stellen. Über DTAE wurden bereits in über zwanzig Projekten Daten 
aus sehr verschiedenen Quellen und unterschiedlichen Formaten kuratiert, 
nicht allein größere Quellenkorpora wie die Editionstexte des Vorhabens 
Johann Friedrich Blumenbach - online® oder ein Korpus aus 151 Texten der 
Wikisource, sondern auch kleinere, individuelle Datensammlungen (oft in äl- 
teren Formaten), wie etwa Texte der deutschen Frauenbewegung, digitalisiert 
von Anna Pfundt,° ein Korpus von Fach- und Gebrauchstexten, digitalisiert 
an der JLU Gießen (Thomas Gloning), sowie ein historisches Zeitungskorpus, 
digitalisiert von Michel Lefévre (Lefévre 2013; in Bearbeitung). 

Ein Angebot in diesem Zusammenhang ist z.B. die Möglichkeit des verteil- 
ten Arbeitens und des Crowdsourcing in DTAQ. Hier ist es möglich, als Arbeits- 
gruppe die eigenen Projektdaten in einem versionierten System zu verbessern 
und seitenbasiert tiefer zu annotieren oder auch andere Interessierte zur Mit- 
hilfe einzuladen. Für die Vorbereitung von Texten für die Integration in DTAQ 
wird ein Framework für den Autor-Modus des oXygen-XML-Editors bereit- 
gestellt, das die Bearbeitung von DTABf-konformen Annotationen in einer 
WYSIWYG-Ansicht ermöglicht. Ein Webformular erleichtert die Erfassung von 
Metadaten nach DTABf. Regelmäßige Schulungen und Workshops geben An- 
leitung für die Anwendung der genannten Tools und die Arbeit mit dem DTA. 

Die nach DTABf aufbereiteten Daten finden aus dem DTA mit automati- 
sierten Verfahren ihren direkten Weg in die CLARIN-Infrastruktur: über CMDI- 
Metadatensätze im VLO, über die Anbindung aller DTA-Daten an die Föderierte 
Volltextsuche, über den TCF-Download sowie über die Vergabe persistenter 
Identifizierer und die Aufnahme in das CLARIN-Repositorium der BBAW.° Auf 


61 Vgl. die Projektseite: http://www.blumenbach-online.de/ (letzter Zugriff: 6.11. 2017) sowie 
die Beschreibung unter http://www.deutschestextarchiv.de/doku/textquellen#blumenbach 
(letzter Zugriff: 6. 11. 2017). 

62 Vgl. die Projektseite: https://de.wikisource.org (letzter Zugriff: 6.11. 2017) sowie die Be- 
schreibung unter: http://www.deutschestextarchiv.de/doku/textquellen#wikisource (letzter 
Zugriff: 6.11. 2017). 

63 Vgl. http://www.deutschestextarchiv.de/search/metadata?corpus=tdef (letzter Zugriff: 6. 11. 
2017). 

64 Vgl. http://www.deutschestextarchiv.de/doku/clarin_kupro_liste?g=tg (letzter Zugriff: 6. 11. 
2017). 

65 https://clarin.bbaw.de/ bzw. https://clarin.bbaw.de/de/repo/ (letzter Zugriff: 6.11. 2017). 
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diese Weise wird die Nachnutzung, die Nachhaltigkeit und langerfristige Archi- 
vierung der digitalen Quellen ohne größeren Aufwand fiir die Datengeber ge- 
währleistet. 

Die Integration von Texten und Textsammlungen aus unterschiedlichen 
Quellen in das DTA trägt somit zu deren besserer Verfügbarkeit und Dissemina- 
tion bei. Zudem werden die betreffenden Werke über die Plattform miteinander 
vernetzt, sodass sie im Zusammenhang und in Bezug zueinander recherchier- 
bar und auswertbar sind. Dadurch können Beziehungen zwischen Werken veri- 
fiziert werden oder auch erstmals zutage treten. 

Zudem konnten aus Texten unterschiedlicher Quellen Spezialkorpora gebil- 
det werden, die das DTA-Kernkorpus sinnvoll ergänzen. So wurden im DTA Zei- 
tungen aus bislang fünf verschiedenen Sammlungen zusammengeführt: die 
Neue Rheinische Zeitung,°° das Mannheimer Korpus historischer Zeitungen,°’ der 
Hamburgische Correspondent,°® Zeitungen aus dem Korpus der diGiTexte® sowie 
die Zeitschriften Die Grenzboten (1841-1922),”° und J. G. Dinglers Polytechnisches 
Journal (1820-1931). Des Weiteren konnte ein Korpus von Texten Alexander von 
Humboldts aus verschiedenen Quellen zusammengebracht werden: Humboldts 


66 Digitalisiert am Rande des Vorhabens Marx-Engels-Gesamtausgabe (http://mega.bbaw.de/ 
projektbeschreibung [letzter Zugriff: 6.11. 2017]); zugänglich unter: http://www.deutschestext 
archiv.de/doku/nrhz (letzter Zugriff: 6. 11. 2017). 

67 Digitalisiert am Institut für Deutsche Sprache Mannheim (http://www1.ids-mannheim.de/ 
[letzter Zugriff: 6.11. 2017]); zugänglich unter: http://www.deutschestextarchiv.de/search/ 
metadata?corpus=mkhz (letzter Zugriff: 6.11. 2017). 

68 Digitalisiert im Rahmen des Projekts Volltextdigitalisierung der Staats- und Gelehrte[n] 
Zeitung des Hamburgischen Unpartheyischen Correspondenten und ihrer Vorldufer (1712-1848) 
unter der Leitung von Prof. Dr. Britt-Marie Schuster an der Universitat Paderborn in Zusammen- 
arbeit mit dem DTA (https://kw.uni-paderborn.de/institut-fuer-germanistik-und-vergleichende- 
literaturwissenschaft/germanistische-und-allgemeine-sprachwissenschaft/schuster/forschung/ 
projekte/der-hamburgische-unpartheyische-correspondent-volltextdigitalisierung/ [letzter Zu- 
griff: 6. 11. 2017]). Zugänglich unter: http://www.deutschestextarchiv.de/search/metadata?corpus= 
correspondent (letzter Zugriff: 6.11. 2017). 

69 Digitalisiert in verschiedenen Projektkontexten an der Justus-Liebig-Universität (JLU) 
Gießen, Professur für Germanistische Sprachwissenschaft (Schwerpunkt Sprachverwendung), 
Prof. Dr. Thomas Gloning. Zugänglich unter: http://www.deutschestextarchiv.de/doku/clarin_ 
kupro_liste?g=tg (letzter Zugriff: 6. 11. 2017). 

70 Digitalisiert im Rahmen eines DFG-Projekts der Staats- und Universitätsbibliothek (SuUB) 
Bremen zur Nachbearbeitung des OCR-Volltextes der Zeitschrift Die Grenzboten, http://brema. 
suub.uni-bremen.de/grenzboten (letzter Zugriff: 6.11. 2017). Recherchierbar unter: http:// 
kaskade.dwds.de/dstar/grenzboten/ (letzter Zugriff: 6.11. 2017). 

71 Digitalisiert im Rahmen des DFG-Projekts Dingler Online an der Humboldt-Universität zu 
Berlin (zugänglich unter: http://www.polytechnischesjournal.de/ [letzter Zugriff: 6.11. 2017]). 
Recherchierbar unter: http://kaskade.dwds.de/dstar/dingler/ (letzter Zugriff: 6. 11. 2017). 
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unselbständige Schriften,’? Nachschriften zu seinen Kosmos-Vorlesungen,’? 
ausgewählte gedruckte Werke” und perspektivisch Briefe und Reisetage- 
bücher Humboldts aus dem Projekt Alexander von Humboldt auf Reisen.’° 
Darüber hinaus konnte eine umfangreiche Sammlung von Funeralschriften in 
das DTA integriert werden. Diese setzt sich aus Funeralschriften der ehema- 
ligen Stadtbibliothek Breslau, ’° aus Epicedien Simon Dachs” sowie aus indi- 
viduell digitalisierten Texten’® zusammen. 

Dass die geschilderten Bemühungen um die Korpora des DTA auch für die 
wissenschaftliche Community relevant sind, zeigt sich an der zunehmenden 
wissenschaftlichen Wahrnehmung und Nutzung der Korpora. So werden Res- 
sourcen des DTA im Rahmen von Einzelstudien herangezogen oder empfohlen 
(z.B. Gloning 2016; Seim 2016; Schuster 2017). Darüber hinaus bauen mehrere 
eigene Forschungsprojekte wesentlich auf den Daten oder der Infrastruktur des 
DTA auf.” 


72 Digitalisiert im Rahmen des Projekts Digitalisierung ausgewählter unselbstständiger Schriften 
Alexander von Humboldts, das vom DTA in Kooperation mit dem Vorhaben der BBAW Alexan- 
der von Humboldt auf Reisen (http: //www.bbaw.de/forschung/avh-r [letzter Zugriff: 6. 11. 2017]) 
und der Professur für Romanische Literaturwissenschaft der Universität Potsdam (Prof. Dr. 
Otmar Ette) durchgeführt wurde. Zugänglich unter: http://www.deutschestextarchiv.de/search/ 
metadata?corpus=avh (letzter Zugriff: 6.11. 2017). 

73 Digitalisiert im Rahmen einer Kooperation des DTA mit dem Projekt Hidden Kosmos (siehe 
auch oben, Abschnitt 2.4). Zugänglich unter: http://www.deutschestextarchiv.de/search/ 
metadata?corpus=avhkv (letzter Zugriff: 6. 11. 2017). 

74 Digitalisiert für das DTA-Kernkorpus; zugänglich unter: http://www.deutschestextarchiv.de/ 
api/pnd/118554700 (letzter Zugriff: 6.11. 2017). 

75 In Vorbereitung, vgl. http://edition-humboldt.de/ (letzter Zugriff: 24. 11. 2017). 

76 Digitalisiert im Rahmen des DFG-Projekts AEDit Frühe Neuzeit der Herzog August Biblio- 
thek Wolfenbüttel (HAB), des DTA an der BBAW und der Forschungsstelle für Personalschrif- 
ten an der Philipps-Universität Marburg (http://diglib.hab.de/?link=029 [letzter Zugriff: 6.11. 
2017]). Zugänglich unter: http://www.deutschestextarchiv.de/search/metadata?corpus=aedit 
(letzter Zugriff: 6. 11. 2017). 

77 Digitalisiert im Rahmen des DFG-Pilotprojektes zum OCR-Einsatz bei der Digitalisierung der 
Funeralschriften der Staatsbibliothek zu Berlin; Federbusch & Polzin 2013; zugänglich unter: 
http://www.deutschestextarchiv.de/search/metadata?corpus=sbb_funeralschriften (letzter Zu- 
griff: 6.11. 2017). 

78 Digitalisiert im Rahmen von Projektarbeiten im Rahmen von Seminaren zu Methoden der 
digitalen Textedition an der Freien Universität zu Berlin (Dozenten: Matthias Boenig, Susanne 
Haaf). 

79 Aktuell sind hierbei z.B. die Projekte Syntaktische Grundstrukturen des Neuhochdeutschen. 
Zur grammatischen Fundierung eines Referenzkorpus Neuhochdeutsch (http://gepris.dfg.de/ 
gepris/projekt/279165027 [letzter Zugriff: 6.11. 2017]); Redewiedergabe - Eine literatur- und 
sprachwissenschafliche Korpusanalyse (http://gepris.dfg.de/gepris/projekt/322751860) und 
Digitale Sammlung Deutscher Kolonialismus (bewilligt im März 2017) zu nennen. 
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5 Zusammenfassung und Ausblick 


Das Deutsche Textarchiv wurde von 2007 bis 2016 von der Deutschen For- 
schungsgemeinschaft gefördert. In dieser Zeit wurde ein nach Textsorten und 
tiber die Zeit ausgewogenes Kernkorpus von Texten aus der Zeit von etwa 1600 
bis 1900 im Umfang von ca. 120 Millionen Textwörtern aufgebaut. Darüber hi- 
naus entwickelte sich das DTA zu einer von vielen Textproduzenten genutzten 
Korpusplattform. Zwischen 2011 und 2016 konnten Kooperationen mit über 
zwanzig institutionell geförderten Korpusprojekten vereinbart werden. Hier- 
durch entstanden zahlreiche weitere Texte für das DTA. Insgesamt stehen so- 
mit im DTA insgesamt mehr als 1 Million Seiten hochqualitativer deutschspra- 
chiger Texte zur Verfügung. Das DTA hat darüber hinaus eine Vielzahl von 
Nachnutzungen erfahren. Allein zwischen Juli 2015 und April 2017 wurde das 
DTA als „Gesamtpaket“ mehr als 5.000-mal heruntergeladen und zu For- 
schungszwecken oder für die universitäre Lehre eingesetzt. Etwa 50 Nachnut- 
zungen des Korpus führten zu Veröffentlichungen im Kontext der Digital Hu- 
manities.®° 

Im Dezember 2016 lief die Förderung des Deutschen Textarchivs durch die 
DFG aus. Durch die Aufnahme in den CLARIN-Verbund seit 2014 können tech- 
nische Softwareentwicklungen und auch der Aufbau eigener Korpora zwar 
nicht mehr in dem Maße wahrgenommenen werden wie in der durch die DFG 
geförderten Aufbauphase. Seinen zentralen Aufgaben kann das DTA jedoch 
durch die Integration in das CLARIN-Zentrum weiter nachkommen. Die BBAW 
ist seit 2016 im deutschen Teil von CLARIN, dem Projekt CLARIN-D, Koordina- 
tor des Kompetenzbereichs Historische Daten und kann in diesem Rahmen 
zentralen Aufgaben der Nutzung des Deutschen Textarchivs nachkommen. Die- 
se bestehen im weiteren zuverlässigen Betrieb der Plattformen DTA und DTAQ, 
der Weiterentwicklung bzw. Wartung des interoperablen TEI-kompatiblen 
Schemas DTABf sowie in der nachhaltigen Aufbewahrung der Korpusres- 
sourcen und der Services des DTA. Im Rahmen von CLARIN-D engagiert sich 
das DTA nach wie vor, um durch Kooperationen mit Korpusaufbauprojekten 
die Textbasis des DTA zu vergrößern. Zusammengefasst kann somit festgestellt 
werden, dass das DTA das selbstgesteckte Ziel, als aktives Archiv zu fungieren, 
erfüllt und damit als wichtiger Bestandteil im „Ökosystem“ der Digital Humani- 
ties verankert ist. 


80 Vgl. http://www.deutschestextarchiv.de/clarin-kooperationen (letzter Zugriff: 6.11. 2017). 


Das Deutsche Textarchiv als Forschungsplattform für historische Daten in CLARIN =—— 245 


Literatur 


Bird, Christian, Tim Menzies & Thomas Zimmermann (2015): The art and science of analyzing 
software data. San Francisco, CA: Morgan Kaufmann. 

DFG (2015a): Empfehlungen zu datentechnischen Standards und Tools bei der Erhebung 
von Sprachkorpora. Hrsg. vom Fachkollegium Sprachwissenschaften der Deutschen 
Forschungsgemeinschaft (DFG). http://www.dfg.de/download/pdf/foerderung/ 
grundlagen_dfg_foerderung/informationen_fachwissenschaften/geisteswissenschaften/ 
standards_sprachkorpora.pdf (letzter Zugriff: 6. 11. 2017). 

DFG (2015b): Förderkriterien für wissenschaftliche Editionen in der Literaturwissenschaft. 
Hrsg. vom Fachkollegium Literaturwissenschaft der DFG. http: //www.dfg.de/download/ 
pdf/foerderung/grundlagen_dfg_foerderung/informationen_fachwissenschaften/ 
geisteswissenschaften/foerderkriterien_editionen_literaturwissenschaft.pdf (letzter 
Zugriff: 6.11. 2017). 

Dumont, Stefan & Martin Fechner (2014/15): Bridging the gap: Greater usability for TEI 
encoding. Journal of the Text Encoding Initiative [Online] 8. http: //jtei.revues.org/1242 
(letzter Zugriff: 6.11. 2017). 

Dumont, Stefan, Susanne Haaf, Tobias Kraft, Alexander Czmiel, Christian Thomas & 
Matthias Boenig (2016): Applying standard formats and tools, 69 f. TEI Conference and 
Members Meeting 2016: Book of abstracts. http://tei2016.acdh.oeaw.ac.at/sites/ 
default/files/TElconf2016_BookOfAbstracts.pdf#page=71 (letzter Zugriff: 6.11. 2017). 

Eckart, Kerstin (2012): Resource annotations. Aspects of annotations. CLARIN-D User Guide. 
Chapter 1,3[,1]. http: //media.dwds.de/clarin/userguide/text/annotation_aspects.xhtml. 

Federbusch, Maria & Christian Polzin (2013): Volltext via OCR - Möglichkeiten und Grenzen. 
Testszenarien zu den Funeralschriften der Staatsbibliothek zu Berlin - Preußischer 
Kulturbesitz. Mit einem Erfahrungsbericht von Thomas Stäcker aus dem Projekt 
„Helmstedter Drucke Online“ der Herzog August Bibliothek Wolfenbüttel. Berlin: o. V. 

(= Beiträge aus der Staatsbibliothek zu Berlin - Preußischer Kulturbesitz 43.). 

Geyken, Alexander, Susanne Haaf, Bryan Jurish, Matthias Schulz, Christian Thomas & 

Frank Wiegand (2012): TEI und Textkorpora: Fehlerklassifikation und Qualitätskontrolle 
vor, während und nach der Texterfassung im Deutschen Textarchiv. Jahrbuch für 
Computerphilologie - online. http://computerphilologie.digital-humanities.de/jg09/ 
geykenetal.html (letzter Zugriff: 6.11. 2017). 

Geyken Alexander, Susanne Haaf & Frank Wiegand (2012): The DTA ‘base format’. A TEI- 
subset for the compilation of interoperable corpora. In Jeremy Jancsary (Hrsg.), 
Proceedings of the 11th Conference on Natural Language Processing (KONVENS), 
383-391. Vienna: Eigenverlag OGAI (= Schriftenreihe der Österreichischen Gesellschaft 
für Artificial Intelligence 5). http: //www.oegai.at/konvens2012/proceedings.pdf#page= 
383 (letzter Zugriff: 6.11. 2017). 

Geyken, Alexander, Matthias Boenig, Susanne Haaf, Bryan Jurish, Christian Thomas, 

Frank Wiegand & Kay-Michael Würzner (2015): Zeitliche Verlaufskurven in den DTA- und 
DWDS-Korpora: Wörter und Wortverbindungen über 400 Jahre (1600-2000). In DHd 
2015: Von Daten zu Erkenntnissen: Book of Abstracts, 78-88. http://gams.uni-graz.at/ 
o:dhd2015.abstracts-vortraege#page=78 (letzter Zugriff: 6.11. 2017). 

Gloning, Thomas (2016): Kommunikationsgeschichte, Themengeschichte, Ideengeschichte. 
Beispiele für Zusammenhänge und Lehrszenarien. In Volker Harm, Holger Runow & 
Leevke Schiwek (Hrsg.), Sprachgeschichte des Deutschen. Positionierungen in 
Forschung, Studium, Unterricht, 181-201. Stuttgart: Hirzel. 


246 — A. Geyken, M. Boenig, S. Haaf, B. Jurish, C. Thomas und F. Wiegand 


Haaf, Susanne (2017): Das DTA-Basisformat in neuem Gewand. In /m Zentrum Sprache. 
Untersuchungen zur deutschen Sprache, 3. März 2017. https: //sprache.hypotheses.org/ 
147 (letzter Zugriff: 6.11. 2017). 

Haaf, Susanne & Matthias Schulz (2014): Historical newspapers & journals for the DTA. In: 
Language Resources and Technologies for Processing and Linking Historical Documents 
and Archives - Deploying Linked Open Data in Cultural Heritage (LRT4HDA). Proceedings 
of the workshop, held at the 9th LREC, May 26-31, Reykjavik (Iceland), 50-54. http: // 
www.lrec-conf.org/proceedings/lrec2014/workshops/LREC2014Workshop- 
LRT4HDA%20Proceedings.pdf#page=57 (letzter Zugriff: 6.11. 2017). 

Haaf, Susanne, Alexander Geyken & Frank Wiegand (2014/2015): The DTA ‘base format’: 

A TEI subset for the compilation of a large reference corpus of printed text from multiple 
sources. Journal of the Text Encoding Initiative 8. http://jtei.revues.org/1114 (letzter 
Zugriff: 6.11. 2017). 

Haaf, Susanne & Christian Thomas (2016): Die Historischen Korpora des Deutschen 
Textarchivs als Grundlage fiir sprachgeschichtliche Forschungen. In Volker Harm, 
Holger Runow & Leevke Schiwek (Hrsg.), Sprachgeschichte des Deutschen. 
Positionierungen in Forschung, Studium, Unterricht, 217-234. Stuttgart: Hirzel. 

Haaf, Susanne & Christian Thomas (2016 [2017]): Enabling the encoding of manuscripts 
within the DTABf: Extension and modularization of the format. Journal of the Text 
Encoding Initiative (jTEI) 10: Conference Issue. DOI: 10.4000/jtei.1650. http:// 
jtei.revues.org/1650 (letzter Zugriff: 6.11. 2017). 

Hahn, Udo, Franz Matthies, Erik Faessler & Johannes Hellrich (2016): Uima-based JCoRe 2.0 
goes GitHub and Maven Central: State-of-the-art software resource engineering and 
distribution of NLP pipelines. Proceedings of the 10th LREC 2016, 2502-2509. http:// 
www.lrecconf.org/proceedings/lrec2016/pdf/774_Paper.pdf (letzter Zugriff: 6.11. 2017). 

Hamp, Birgit & Helmut Feldweg (1997): GermaNet - a lexical-semantic net for German. In 
Proceedings of the ACL workshop Automatic Information Extraction and Building of 
Lexical Semantic Resources for NLP Applications, 9-15. Madrid: o. V. http:// 
www.aclweb.org/anthology/W97-0802 (letzter Zugriff: 6.11. 2017). 

Heid, Ulrich, Helmut Schmid, Kerstin Eckart & Erhard Hinrichs (2010): A corpus 
representation format for linguistic web services: The D-SPIN text corpus format and its 
relationship with ISO standards. In Proceedings of the Seventh International Conference 
on Language Resources and Evaluation (LREC ’10). Malta: o. V. 

Hellrich, Johannes, Franz Matthies & Udo Hahn (2017): UIMA als Plattform fiir die nachhaltige 
Software-Entwicklung in den Digital Humanities. In Dhd 2017: Digitale Nachhaltigkeit: 
Book of Abstracts, 279-281. http: //www.dhd2017.ch/wp-content/uploads/2017/03/ 
Abstractband_def3_M%C3%A4rz.pdf (letzter Zugriff: 24.11. 2007). 

Henrich, Verena & Erhard Hinrichs (2010). GernEdiT - The GermaNet editing tool. In 
Proceedings of the Seventh Conference on International Language Resources and 
Evaluation (LREC ’10), 2228-2235. Malta: o. V. http://www.lrec-conf.org/proceedings/ 
lrec2010/pdf/264_Paper.pdf (letzter Zugriff: 6.11. 2017). 

Hinrichs, Erhard, Marie Hinrichs & Thomas Zastrow (2010): WebLicht. Web-based LRT 
services for German. In Proceedings of the ACL 2010 System Demonstrations, 25-29. 

Jurish, Bryan (2012): Finite-state canonicalization techniques for historical German. 
Dissertation. Potsdam: Universität Potsdam. urn:nbn:de:kobv:517-opus-55789. http:// 
opus.kobv.de/ubp/volltexte/2012/5578/ (letzter Zugriff: 6.11. 2017). 

Jurish, Bryan & Kay-Michael Würzner (2013): Word and sentence tokenization with Hidden 
Markov Models. Journal for Language Technology and Computational Linguistics 28(2), 
61-83. 


Das Deutsche Textarchiv als Forschungsplattform für historische Daten in CLARIN =—— 247 


Jurish, Bryan, Christian Thomas & Frank Wiegand (2014): Querying the Deutsches Textarchiv. 
In U. Kruschwitz, F. Hopfgartner, & C. Gurrin (Hrsg.), Proceedings of the Workshop 
MindTheGap 2014: Beyond Single-Shot Text Queries: Bridging the Gap(s) between 
Research Communities, 25-30. urn:nbn:de:0074-1131-6. http: //ceur-ws.org/Vol-1131/ 
(letzter Zugriff: 24.11. 2017). 

Jurish, Bryan, Alexander Geyken & Thomas Werneke (2016): DiaCollo: diachronen 
Kollokationen auf der Spur. In DHd 2016: Modellierung — Vernetzung - Visualisierung: 
Book of Abstracts, 172-175. Duisburg: nisaba verlag. 

Jurish, Bryan (2015): DiaCollo: On the trail of diachronic collocations. In K. De Smedt (Hrsg.), 
Proceedings of the CLARIN Annual Conference 2015, 28-31. http:// 
www.deutschestextarchiv.de/files/jurish2015diacollo-clarin.pdf (letzter Zugriff: 6.11. 
2017). 

Kuczera, Andreas (2017): Das Deutsche Textarchiv in der Graphenwelt. In Mittelalter. 
Interdisziplinäre Forschung und Rezeptionsgeschichte. https: // 
mittelalter.hypotheses.org/10025 (letzter Zugriff: 6.11. 2017). 

Lefévre, Michel (2013): Textgestaltung, Äußerungsstruktur und Syntax in deutschen Zeitungen 
des 17. Jahrhunderts. Zwischen barocker Polyphonie und solistischem Journalismus. 
Berlin: Weidler. 

Lemnitzer, Lothar, Bryan Jurish und Daniel Burkhardt (2016): DiaCollo Tutorial. http:// 
kaskade.dwds.de/diacollo-tutorial (letzter Zugriff: 6.11. 2017). 

Seim, Stefanie (2016): Nominalphrasen in literarischen Texten: Strukturtypen und Funktionen 
beim Figurenentwurf in Werken des 20. und 21. Jahrhunderts. Gießen: Gießener 
Elektronische Bibliothek (= Linguistische Untersuchungen 10). 

Sinclair, Stéfan & Geoffrey Rockwell (2017): Voyant Tools. http://voyant-tools.org/ (letzter 
Zugriff: 6.11. 2017). 

Thomas, Christian & Frank Wiegand (2015): Making great work even better. Appraisal and 
digital curation of widely dispersed electronic textual resources (c. 15'*-19'* centuries) 
in CLARIN-D. In Jost Gippert & Ralf Gehrke (Hrsg.), Historical corpora. Challenges and 
perspectives, 181-196. Tübingen: Narr. 

Tiepmar, Jochen, Thomas Eckart, Dirk Goldhahn & Christoph Kuras (2016): Canonical text 
services in CLARIN - Reaching out to the Digital Classics and beyond. In CLARIN Annual 
Conference. http: //cts.informatik.uni-leipzig.de/documents/CLARIN_CTS.pdf (letzter 
Zugriff: 6.11. 2017). 

Tiepmar, Jochen, Thomas Eckart, Dirk Goldhahn & Christoph Kuras (2017): Integrating 
canonical text services into CLARIN’s search infrastructure. In: Linguistics and Literature 
Studies 5, 99-104. doi:10.13189/lls.2017.050205, http://www.hrpub.org/journals/ 
article_info.php?aid=5738 (letzter Zugriff: 6.11. 2017). 

Wittenburg, Peter & Dieter van Uytvanck (2012): Metadata. The Component Metadata 
Initiative (CMDI). In CLARIN-D User Guide, Chapter 1,2[,6] sowie dies. Metadata. 
Aggregation. Ebd., Chapter 1,2[,7]. http://media.dwds.de/clarin/userguide/text/ 
metadata_aggregation.xhtml (letzter Zugriff: 6.11. 2017). 


Andrea Rapp 
11 Digitale Forschungsinfrastrukturen fiir 
die Germanistische Mediavistik 


allen händen, die sich zum anbau dieses feldes anschicken, 
ist vollauf arbeit zugedacht 


Abstract: Digitale Forschungsinfrastrukturen haben auch in der Germanis- 
tischen Mediavistik einen Paradigmenwechsel bewirkt: Sowohl durch den ubi- 
quitären und transparenten Zugriff auf unikale Objekte als auch durch die 
neuen Forschungs- und Vernetzungsmöglichkeiten für Materialien wie auch 
für Forschende. Der Beitrag gibt einen Einblick in die Entwicklung digitaler 
Forschungsinfrastrukturen für die Mediävistik, die teilweise zu den vorbildhaf- 
ten Modell- und Pionierleistungen in diesem Feld zu gelten haben. Ausgehend 
von Überlegungen zum Verhältnis von historischer Sprachwissenschaft und 
moderner Linguistik werden Begriffe und Konzepte digitaler Forschungsinfra- 
strukturen konturiert. Nach einem kurzen Blick auf die Bemühungen um digi- 
tale Angebote seit Beginn der Computernutzung in den Geisteswissenschaften 
in den späten Vierzigerjahren des 20. Jahrhunderts werden aktuelle Forschungs- 
infrastrukturen vorgestellt. Zu diesem Zweck werden die Angebote in die 
Bereiche „Quellen und Nachweisinstrumente“ — also die für die Mediävistik 
besonders wichtige Handschriftendigitalisierung und -erschließung -, „Korpora 
und Editionen“ mit einem Schwerpunkt auf linguistische Korpora, Wörterbü- 
cher - vorrangig zu den historischen Sprachstufen - und „Sprachatlanten, 
Tools und Werkzeuge zur Erschließung und Analyse“ sowie „Fachkommunika- 
tion“ gegliedert. Eine zentrale Aufgabe für die Zukunft ist die Sicherung der 
Nachhaltigkeit digitaler Angebote; es wird weiterhin darum gehen, die Balance 
zu finden zwischen Weiterentwicklung und Bewahrung sowie Stabilität und 
Dynamik. 


Keywords: Digitalisierung, Fachkommunikation, Forschungswerkzeuge, Hand- 
schriften, Wörterbücher 
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1 Sprachgeschichte im Kontext des Instituts 
fiir deutsche Sprache 


Das Institut für deutsche Sprache in Mannheim (IDS) hat als zentrale außeruni- 
versitäre Einrichtung die Aufgabe, die deutsche Gegenwartssprache und ihre 
neuere Geschichte zu dokumentieren und zu erforschen. Ist damit ein dedi- 
zierter Forschungsauftrag für die ältere, mittelalterliche Sprachgeschichte zu- 
nächst nicht direkt gegeben, ist die Erforschung und Dokumentation der histo- 
rischen Entwicklung und des Sprachwandels dennoch ein zentraler Schlüssel 
zum Verständnis und zur Beschreibung von System und Gebrauch rezenter 
Sprachzustände. Hermann Paul formulierte das 1880 in seinen Principien der 
Sprachgeschichte mit einem gewissen Absolutheitsanspruch: 


Es ist eingewendet worden, dass es noch eine andere wissenschaftliche Betrachtung der 
Sprache gäbe als die geschichtliche. Ich muss das in Abrede stellen. Was man für eine 
nichtgeschichtliche Betrachtung der Sprache erklärt, ist im Grunde nichts als eine unvoll- 
kommene geschichtliche, unvollkommen teils durch Schuld des Betrachters, teils durch 
Schuld des Beobachtungsmaterials. Sobald man über das bloße Konstatieren von Einzel- 
heiten hinausgeht, sobald man versucht, den Zusammenhang zu erfassen, die Erschei- 
nungen zu begreifen, so betritt man auch den geschichtlichen Boden, wenn auch viel- 
leicht ohne sich klar darüber zu sein. (Paul 1880: 810) 


In der modernen Linguistik stehen synchrone und diachrone Sprachbetrach- 
tung nebeneinander und ergänzen einander. Neben dem Eigenwert mediävisti- 
scher Forschung und mediävistischen Erkenntnisinteresses bleibt die Rolle im 
Kontext gegenwartssprachlicher Forschung und Vermittlung. Daher ist auch 
entgegen ihrer häufigen Vernachlässigung in schulischen und universitären 
Curricula der „Überblick über die Geschichte der deutschen Sprache“, ihre 
„historische Dimension“ Bestandteil des gymnasialen Lehrplans, der die Ver- 
mittlung des Sprachsystems als „dem historischen Wandel unterworfen“ the- 
matisiert und einfordert (Ländergemeinsame inhaltliche Anforderungen 2008: 
23). In den Forschungsschwerpunkten von Ludwig M. Eichinger tritt die Sprach- 
geschichte ganz selbstverständlich neben Syntax und Wortbildung des Deut- 
schen, Regionalsprachforschung, Soziolinguistik, Stilistik, Textlinguistik und 
Wissenschaftsgeschichte. Als Direktor einer außeruniversitären Einrichtung, 
die der Leibniz-Gemeinschaft angehört, übernimmt er zudem besondere Ver- 
antwortung für die digitale Forschungsinfrastruktur. Im Jahr 2016 wurde u.a. 
dieser Bereich im IDS zu einer eigenen Einheit als Programmbereich etabliert, 
der „die sich mit der nationalen und internationalen Vernetzung der IT- 
bezogenen Aktivitäten des Hauses und der Sicherung der Nachhaltigkeit von 
sprachbezogenen Forschungsdaten“ bündelt (Eichinger 2016: 5). 
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Im Folgenden soll ein Einblick in die Vielfalt der Angebote und der Per- 
spektiven gegeben werden, die digitale Technologien fiir die Erforschung und 
Vermittlung von Kultur, Sprache und Literatur des Mittelalters bereithalten. 
Dabei liegt ein Fokus naturgemäß auf Angeboten aus Deutschland bzw. dem 
deutschsprachigen Raum, obwohl Angebote für die Germanistische Mediävistik 
nicht auf diesen Raum beschränkt, sondern vielmehr global und weltweit ver- 
netzt sind. Nach einer übergreifenden definitorischen Näherung sollen digitale 
Forschungsinfrastrukturen für die Germanistische Mediävistik vorgestellt wer- 
den, dabei kann es aufgrund der Fülle des Angebots, das zudem ständig weiter 
ausgebaut wird, nicht um einen vollständigen Überblick gehen, vielmehr sol- 
len einige exemplarisch herausgegriffen und ihre Rolle in Forschung und Lehre 
adressiert werden. Übergreifende Komponenten - wiewohl entscheidende 
Grundlage nachhaltiger digitaler Infrastrukturen wie Persistent Identifier, Onto- 
logien, Linked Data und generische Umgebungen und Initiativen wie TextGrid, 
CLARIN, DARIAH u.a. seien im Rahmen dieses Beitrags um der Konzentration 
auf die Mediävistik willen ausgeschlossen. Da es insbesondere für die Epoche 
des Mittelalters oder für die Vorgeschichte des Deutschen, für die Zeit und 
Kultur der Germanen zahllose Laienangebote, häufig sogar unseriöse und frag- 
würdige Angebote im Netz zu finden sind, ist es umso wichtiger, dass die zünf- 
tige Mediävistik wissenschaftliche Angebote digital bereitstellt sowie Kriterien 
der Qualitätssicherung formuliert und kommuniziert.! Auch dafür ist eine Insti- 
tution wie das IDS immens wichtig. Im Anschluss an den Überblick sollen Per- 
spektiven und Desiderata unter den besonderen Herausforderungen von Nach- 
haltigkeit und Weiterentwicklung angesprochen werden. 


2 Definition Forschungsinfrastrukturen 


Das Wort Infrastruktur (,Unter-bau‘ aus lateinisch infra ‚unterhalb‘ und struc- 
tura ‚Zusammenfügung‘) hat eine vergleichsweise junge Geschichte und um- 
fasst nach der Definition im Wörterbuch der deutschen Gegenwartssprache 
(WDG) „alle für die Wirtschaft eines Landes notwendigen Einrichtungen und 


1 Nicht jedes Angebot von Laien (Nicht-Wissenschaftlerinnen und Nicht-Wissenschaftler) ist un- 
wissenschaftlich oder von schlechter Qualität. Gerade für eine stark Klischee-behaftete Epoche 
wie das Mittelalter, die auf breites Interesse stößt, würden sich Citizen Science-Ansätze anbieten. 
Zur Mittelalterfaszination und Laienrezeption siehe die Aktivitäten des Arbeitskreises Mittelalter- 
rezeption um die Germanisten Stefan Keppler-Tasaki (Tokyo/Berlin) und Mathias Herweg (Karls- 
ruhe), z.B. Keppler-Tasaki & Herweg (2012), Rohr (2011), zur Präsenz des Mittelalters in Sprache, 
Kultur und Gesellschaft vgl. z.B. auch die Einleitung in Fuhrmann (1996, 1987: 15-16). 
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Anlagen, die nur mittelbar der Produktion dienen: zur I. einer Volkswirtschaft 
gehören Eisenbahnen, Straßen, Häfen“.? Auch die Belege im IDS-Wortinforma- 
tionssystem OWID sowie das Kookkurrenzprofil aus den IDS-Corpora belegen 
dieses Verständnis von Infrastruktur als Hauptbedeutung.? Der Begriff „For- 
schungsinfrastruktur“ wurde dementsprechend zunächst vor allem auf wissen- 
schaftliche Großgeräte in den Naturwissenschaften wie Teilchenbeschleuniger, 
Teleskope oder Labore bezogen, während erst in den letzten 10 bis 15 Jahren 
zum einen auch die geisteswissenschaftlichen Äquivalente wie Bibliotheken, 
Archive oder Museen unter diesem Blickwinkel betrachtet wurden (Wissen- 
schaftsrat Bericht 2017: 7-9 & Empfehlungen 2011) und zum anderen ein Ver- 
ständnis digitaler Forschungsinfrastrukturen entwickelt wurde und dadurch 
insgesamt eine Ablösung von der einseitigen Vorstellung von Infrastruktur als 
Großgerät erfolgte. Die Relevanz digitaler Infrastruktur zeigt sich auch in der 
Einrichtung des Rats für Informationsinfrastrukturen, der seit 2014 Politik und 
Wissenschaft in strategischen Zukunftsfragen der digitalen Wissenschaft berät.“ 

Forschung in den Geisteswissenschaften basierte seit jeher auf Infrastruk- 
turen. Im analogen Bereich gehören dazu Artefakte, Bücher, Bibliotheken, Ar- 
chive oder Museen. Im digitalen Bereich arbeiten wir mit ihren digitalen Deri- 
vaten als „Daten“, mit Korpora und Verzeichnissen, Wörterbüchern und 
Informationssystemen, vor allem aber auch mit digitalen Werkzeugen wie 
Recherche-, Editions-, Auswertungs- oder Statistiktools. Die umfassende digi- 
tale Transformation erforderte und erfordert große Anstrengungen seitens der 
Wissenschaft und der Politik und zwingt zu einer Revision, aber auch zu einer 
notwendigen Reflexion geisteswissenschaftlichen Arbeitens und Forschens. 
Diese Reflexion muss Gewinne und Verluste betrachten, schließlich zu einer 
neuen Art geisteswissenschaftlichen Forschens führen, in der analoge Arbeits- 
weisen nicht disruptiv von digitalen abgelöst werden, sondern in der durch 
das Zusammengehen beider Ansätze unsere Kenntnisse erweitert werden. Der 
digitale Wandel und der Aufbau neuer Infrastrukturen ist unbestritten zu 
einem wichtigen Motor geisteswissenschaftlichen Forschens geworden. Er 
führt auch zu einer veränderten Wahrnehmung der Geisteswissenschaften in 
anderen Wissenschaftsbereichen und in der Gesellschaft, was gerade auch in 
der aktuellen gesellschaftlichen und politischen Diskussion kaum hoch genug 


2 Laut Verlaufskurve im Digitalen Wörterbuch der deutschen Gegenwartssprache ist das Wort 
seit den 1920er Jahren präsent: http://zwei.dwds.de/wb/Infrastruktur 

3 www.owid.de/artikel/202070; http://corpora.ids-mannheim.de/ccdb/?preload=http://corpora. 
ids-mannheim.de/ccdb/db/496e/496e667261737472756b/47572/t496e667261737472756b74757200. 
html?src=elex 

4 Koalitionsvertrag zwischen CDU, CSU und SPD, 18. Legislaturperiode, Dezember 2013. 
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geschatzt werden kann. Die Relevanz und die Chancen digitaler Infrastruk- 
turen wurden in verschiedenen Papieren des Wissenschaftsrats betont: 


Forschungsinfrastrukturen leisten in allen Wissenschaftsbereichen wesentliche Beitrage 
zum wissenschaftlichen Erkenntnisgewinn, zur wissenschaftlichen Beantwortung von Fra- 
gen gesellschaftlicher Relevanz sowie zur internationalen Anschlussfähigkeit dieser An- 
strengungen. [...] sie wandeln sich von tradierenden und Fachinformationen bevorratenden 
Hilfseinrichtungen zu Inkubatoren für neue und innovative wissenschaftliche Fragestellun- 
gen aufgrund von Forschungsdaten, die durch diese Infrastrukturen selbst erst erzeugt wer- 
den. [...] Digital aufbereitete Fachinformationen bieten durch ihre Verknüpfung mit Meta- 
daten ganz neuartige Möglichkeiten der forschenden Erschließung von Bibliotheks-, Archiv- 
und Sammlungsbeständen. (Wissenschaftsrat Empfehlungen 2011: 7) 


Trotz aller Erfolge und der Breite des Angebots bleiben die Geisteswissenschaf- 
ten in Aufbau und Nutzung, d.h. auch bei den Forschungsmöglichkeiten, hin- 
ter anderen Wissenschaftszweigen und in Förderprogrammen zurück, sie ha- 
ben immer noch Nachholbedarf. Eine große Herausforderung liegt derzeit 
zudem in der Konzeption und Umsetzung des nachhaltigen Betriebs digitaler 
Infrastrukturen (Neuroth & Rapp 2016) - eine für die Geisteswissenschaften 
und das kulturelle Erbe besonders wichtige Anforderung -, was nicht allein 
eine technologische Aufgabe ist, sondern vor allem eine organisatorische und 
politische Herausforderung darstellt. Außeruniversitären Institutionen kommt 
in diesem Zusammenhang eine wichtige Rolle zu, insbesondere, wenn sie auch 
mit universitärer Forschung gut vernetzt sind und einen klaren inhaltlichen 
und gesellschaftlich akzeptierten Auftrag haben. Die soziale Dimension von 
Forschungsinfrastruktur (Wissenschaftsrat 2011: 10) ist ferner für das eher klei- 
ne Fachgebiet der Germanistischen Mediävistik, das auf Vernetzung in hohem 
Maße angewiesen ist, besonders relevant. 

Für die (Germanistische) Mediävistik ist das Potenzial digitaler Zugänglich- 
keit evident, nicht zuletzt wegen der Gebundenheit der Texte an unikale Über- 
lieferung, und man war in weiten Teilen der digitalen Transformation zumin- 
dest aufgeschlossen, z. T. wurde auch die Entwicklung führend (mit-)gestaltet. 
Eine der ersten geisteswissenschaftlich motivierten Nutzungen des Computers 
war Roberto Busas in den Vierzigerjahren des 20. Jahrhunderts startende und 
heute noch digital zugängliche und genutzte corpus- und computerlinguis- 
tische Aufarbeitung der Werke und der Sprache des Thomas von Aquin’, ein 
Projekt, an dem beispielhaft die gesamte Entwicklung der Digital Humanities 
„erzählt“ werden kann (Nyhan & Terras 2017; Terras, Nyhan & Vanhoutte 
2013); Busa gilt daher als Gründungsvater der Digital Humanities. Indices und 


5 www.corpusthomisticum.org 
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Konkordanzen sowie die Erstellung von Editionen waren ab den 1960er und 
1970er Jahren Schwerpunkte;® das von Wilhelm Ott und anderen entwickelte 
philologische Werkzeug TUSTEP ermöglichte die Umsetzung zahlloser Vor- 
haben und Forschungen und ist ebenfalls bis heute im Einsatz.’ Beides sicher 
ermutigende Beispiele digitaler Langlebigkeit, getragen durch die Interessen 
der Nutzenden. Die 1990er Jahre standen unter der Vision der „Verteilten 
Nationalen Forschungsbibliothek“, die von der DFG u.a. mit der Einrichtung 
zweier Digitalisierungszentren in München und Göttingen sowie der Neuord- 
nung der Förderprogramme im heutigen Programmbereich LIS verbunden 
waren (Göttker 2016). Im Bereich der Handschriftendigitalisierung ist u.a. auf 
die Universitätsbibliothek Graz zu verweisen, wo neben der Digitalisierung des 
Katalogs auch der Grazer Büchertisch für die Digitalisierung mittelalterlicher 
Handschriften entwickelt wurde, der sich - zusammen mit den entsprechen- 
den Verfahren und Workflows — rasch zum Standard entwickelte.® Die eben- 
falls in den 1990er Jahren erfolgte Retro-Digitalisierung und Vernetzung der 
mittelhochdeutschen Wörterbücher gehörte zu den Pionierprojekten der Voll- 
textdigitalisierung und setzte Maßstäbe für die TEI/XML-Kodierung und damit 
strukturell-semantische Erschließung und Vernetzung von Wörterbuchdaten 
(Burch et al. 2003). Dennoch ist das Potenzial all dieser (Einzel-)Leistungen 
und Ergebnisse noch kaum ansatzweise ausgeschöpft. Vor allem in der Vernet- 
zung und nachhaltigen Erschließung ist noch viel zu tun, damit zukünftig 
Linked-Data-Annotationen ein offenes und stabiles Netz weben können, das 
dem von Hans Walter Gabler für Editionen skizzierten „web of discourses“ 
(Gabler 2010: 46) entspricht. Wie Luise Borek (2017) in ihrer Dissertation resü- 
miert, wäre das Ergebnis eines solchen koordinierten Vernetzungsprozesses 
„dann kein annotiertes Corpus, sondern ein dynamisches und interaktives Wis- 
sensnetz, das auch Diskurse einschließt“, und sie benennt weiter die zentrale 
Voraussetzung für ein solches Netz: 


6 In Europa und für die Germanistische Mediävistik hat Roy Wisbey hier innovativ gewirkt; 
siehe z.B. EADH People, Terras 2014; in Deutschland ist die Reihe Maschinelle Verarbeitung 
altdeutscher Texte (I-V), basierend auf einer Reihe internationaler Tagungen zwischen 1971 
und 1997, bei denen auch Vertreter des IDS präsent waren, anzuführen. 

7 Tübinger System von Textverarbeitungs-Programmen (TUSTEP), www.tustep.uni-tuebin- 
gen.de. Die offen zugänglichen Protokolle des Kolloquiums über die Anwendung der EDV in den 
Geisteswissenschaften an der Universität Tübingen sind eine hervorragende Quelle zur Entwick- 
lung des Computereinsatzes in den Geisteswissenschaften: www.tustep.uni-tuebingen.de/ 
kollog.html 

8 „1993/94 entstand die erste Homepage der Sondersammlungen, wenig später war der 
Handschriften-Katalog der Universitätsbibliothek Graz der erste Online-Katalog in Österreich 
im Altbuch-Bereich“, konnte Hans Zotter zu Recht stolz berichten. „1995 wurden die ersten 
Schritte in der Digitalisierung gesetzt.“ (Presseaussendung Uni Graz 2009). 
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Der Zugriff auf die darin enthaltenen Daten - wie auch auf die allgemein stetig anwach- 
senden Forschungsdaten - kann nur dann transparent erfolgen, wenn einzelne Ressour- 
cen identifizierbar und in Netzstrukturen eingebunden sind. Die Voraussetzung ist eine 
flächendeckend tragfähige, d.h. nachhaltige und standardisierte Digital Curation, die nur 
von entsprechender Infrastruktur zu leisten ist. (Borek 2017: 199) 


Probleme bereiten neben Mängeln bei persistenter Identifizierung auch nach 
wie vor rechtliche Restriktionen, denn viele Ressourcen sind nicht unter offe- 
ner Lizenz verfügbar oder erst mit mehrjährigen Moving Walls, was sich nach- 
teilig auf die Forschung auswirkt. Dieses Problem betrifft also nicht allein die 
Sprachdaten der Neuzeit, sondern auch die Objekte, Ressourcen und For- 
schungsergebnisse zur Sprachgeschichte. 


3 Digitale Forschungsinfrastrukturen in 
der (Germanistischen) Mediävistik - 
ein kursorischer Überblick 


Um die unterschiedlichen Herausforderungen und Funktionalitäten und den he- 
terogenen Erschließungsstand adressieren zu können, ist der folgende Überblick 
gegliedert in die Bereiche Quellen und Nachweisinstrumente, Korpora und Edi- 
tionen, Wörterbücher und Atlanten, Werkzeuge sowie Fachkommunikation. 

Die Technologien und Workflows zur Erfassung und Erschließung (im Sinne 
von Rohdaten) sind mittlerweile gut etabliert, standardisiert und dokumentiert 
(Jannidis, Kohle & Rehbein 2017) und haben vor allem mit den DFG-Praxis- 
regeln und weiteren Handreichungen breite Wirkung entfaltet (DFG Praxisregeln 
Digitalisierung 2013; DFG Handreichungen 2013; DFG Förderkriterien 2015). 
Die Koordinierte Förderinitiative zur Weiterentwicklung von Verfahren für die 
Optical-Character-Recognition (OCR) von 2014 mit dem entsprechenden Koordi- 
nierungsprojekt OCR-D? wird die Verfügbarmachung historischer Sprachdaten 
entscheidend verbessern, nachdem bislang vor allem Double-Keying-Verfahren 
gute Qualität für heterogene, nicht-normierte Sprachdaten leisteten. 

Auf der Seite der Formate und Standards müssen die Schlagwörter Unicode 
und XML/TEI fallen:!° 1987 wurde die Text Encoding Initiative (TEI) mit Unter- 


9 http://ocr-d.de/ 

10 Es sei in diesem Zusammenhang darauf hingewiesen, dass neben dem für die Langfristarchi- 
vierung unverzichtbaren XML andere Technologien leistungsfähige Möglichkeiten zur Recherche 
und Analyse von Texten bieten, wie z.B. die Graphtechnologien; dazu z. B. Kuczera (2015). 
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stiitzung der Association for Computers and the Humanities, der Association for 
Computational Linguistics und der Association for Literary and Linguistic Com- 
puting gegriindet. Dieses Konsortium ist wissenschaftsgetrieben und diskutiert 
und entwickelt hard- und softwareunabhängige Methoden fiir die Annotation, 
die Interoperabilitat und die langfristige Archivierung von Textdaten; sie bie- 
ten als Metasprache den Vorteil, dass sie wie natürliche Sprachen mit einem 
begrenzten Inventar und grammatischen Regeln quasi unendlich viele Dinge 
formulieren und formalisieren können. Damit sind neben textstrukturellen 
Annotationen und Metadaten auch linguistische Erschließungen und seman- 
tische Annotation in beliebiger Tiefe und Komplexität möglich. 


3.1 Quellen und Nachweisinstrumente 


Digitalisate unikaler (bzw. begrenzt zugänglicher) Überlieferung bieten viele 
Vorteile: Sie ermöglichen den direkten Zugang der Forschung zu den Quellen 
„bei gleichzeitiger Schonung der kostbaren, bisweilen fragilen Originale“ (DFG 
Praxisregeln Digitalisierung 2013: 5). Hierhin gehören auch ingenieurwissen- 
schaftliche Leistungen wie der „Grazer Büchertisch“ (Mayer 1999), der eine 
berührungsfreie und besonders schonende Aufnahme erlaubt und der in zahl- 
reichen Institutionen weltweit im Einsatz ist. 

Mit den 1963 erstmals erschienenen DFG-Richtlinien zur Katalogisierung 
(°1992) wurde Deutschland weltweit führend in der Erschließung mittelalter- 
licher Handschriften. Die Katalogisierungskompetenz wird heute in sechs Hand- 
schriftenzentren"™ gebündelt. Als technische Plattform und Portal steht derzeit 
noch Manuscripta Mediaevalia zur Verfügung, das Katalogisate von aktuell 
„90.000 Dokumente[n] zu abendländischen Handschriften hauptsächlich in 
deutschen Bibliotheken“! offen recherchierbar macht. Es erlaubt die gezielte 
Recherche nach mittelalterlichen Handschriften in deutschen Bibliotheken 
und Archiven und enthält darüber hinaus zahlreiche digitalisierte Handschrif- 
tenkataloge und Links zu Handschriftendigitalisaten. Neuere Katalogisierungs- 
und Handschriftendigitalisierungsprojekte lieferten standardmäßig ihre Daten 
an das Portal, so dass das Angebot laufend erweitert und vervollständigt wurde. 

Ein Programm zur Digitalisierung aller verfügbaren Handschriften gibt es 
in Deutschland noch nicht, doch wird aktuell im Rahmen von DFG-geförderten 
Pilotprojekten daran gearbeitet, die methodischen, technischen und organisa- 


11 www.handschriftenzentren.de 
12 Selbstdarstellung auf: www.manuscripta-mediaevalia.de 
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torischen Grundlagen „für großflächige Digitalisierungsmaßnahmen“ zu for- 
mulieren und auch Manuscripta Mediaevalia neu zu konzipieren - in dieser 
Übergangsphase werden von der DFG keine Förderanträge zur Handschriften- 
digitalisierung entgegengenommen.” Dennoch gibt es national wie interna- 
tional eine Vielzahl von Initiativen und Projekten, mit denen Bibliotheken und 
Archive ihre Bestände digital ins Netz bringen. Hier haben nicht zuletzt die 
Katastrophen von Weimar und Köln das Bewusstsein für die Möglichkeiten und 
Notwendigkeiten digitaler Archivierung und Bestandserhaltung geschärft. Vor- 
reiter waren Projekte wie das zur vollständigen Digitalisierung der Dom- und 
Diözesanbibliothek in Köln.” Die Arbeiten und Initiativen der Bibliotheken von 
St. Gallen, Heidelberg, München, Trier, Wolfenbüttel und vielen anderen er- 
weitern das Spektrum der Möglichkeiten und treiben die technischen und wis- 
senschaftlichen Entwicklungen auf diesem Feld kontinuierlich voran. Da es in 
diesem Bereich also eine besonders dynamische Entwicklung gibt, ist der oben 
angesprochene Masterplan von größter Bedeutung. Um ansatzweise den Über- 
blick über aktuelle Digitalisierungen zu behalten, sei auch auf die entsprechen- 
den Aufstellungen auf Portalen wie mediaevum'* und archivportal-d’’ sowie 
auf das Zentralverzeichnis digitalisierter Drucke ZVDD'® verwiesen (dazu unten 
mehr). 

Für deutschsprachige Handschriften des Mittelalters existiert mit dem Mar- 
burger Handschriftencensus'? eine weitere zentrale Anlaufstelle, deren Pflege 
und Ausbau seit 2016 durch ein langfristiges Akademievorhaben gesichert ist. 
Das vom Institut für deutsche Philologie des Mittelalters der Philipps-Universität 
Marburg und nunmehr von der Akademie der Wissenschaften und der Literatur 
(Mainz) betreute Portal geht im Kern auf zwei Repertorien zurück, auf das 
Repertorium deutschsprachiger Handschriften des 13. und 14. Jahrhunderts und 
das Paderborner Repertorium der deutschsprachigen Textüberlieferung des 8. bis 
12. Jahrhunderts, die die entsprechenden Bestände erschließen. Im Akademie- 
vorhaben werden Neufunde aufgenommen, unvollständige Angaben ergänzt 


13 www.handschriftenzentren.de/wp-content/uploads/2016/06/Priorisierungsfragen-Masterplan_ 
pub.pdf 

14 www.handschriftenzentren.de/wp-content/uploads/2016/06/Priorisierungsfragen-Masterplan_ 
pub.pdf; s. auch die Informationen zum Stand des Antrags zu einem neuen Handschriften- 
portal, das Manuscripta Mediaevalia ablösen soll, unter www.handschriftenzentren.de/ 
handschriftenportal 

15 www.ceec.uni-koeln.de/ 

16 www.mediaevum.de 

17 www.archivportal-d.de 

18 www.zvdd.de 

19 http://handschriftencensus.de/ 
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sowie vor allem die Handschriften ab dem 14. Jahrhundert erschlossen, die 
den Großteil mittelalterlicher Überlieferung ausmachen. Ziel ist demnach die 
vollständige Verzeichnung deutschsprachiger mittelalterlicher Handschriften. 
Suchmöglichkeiten, übersichtliche und standardisierte Darbietungen der Be- 
schreibungen sowie aktuelle Links zu Digitalisaten machen das Repertorium 
zu einem hervorragenden Arbeitsmittel, das auch für Studierende geeignet ist. 
Die Akademieförderung erlaubt nun auch wieder die Bereitstellung des Melde- 
dienstes für neue Handschriftenfunde, Ergänzungen und Korrekturen, die 
stark nachgefragt, jedoch aus Ressourcengründen eingestellt worden war - 
wiederum zeigt sich zum einen die Relevanz dieser Infrastrukturen für die wis- 
senschaftliche Kommunikation und Vernetzung, zum anderen die dringende 
Notwendigkeit der Bindung an langfristige Institutionen. 


3.2 Korpora und Editionen 


Aktuelle Editionsprojekte werden in der Regel digital erstellt und beinhalten 
neben der Druckedition zumeist auch eine digitale Publikationskomponente, 
während ältere, aber immer noch gültige und wertvolle Editionen nachträglich 
retrodigitalisiert werden mussten und müssen. Aufgrund der Fülle des Angebots 
können hier nur exemplarisch einige recht bekannte umfangreiche Samm- 
lungen, Initiativen und Mustereditionen vorgestellt werden, die frei im Netz 
verfügbar sind. 

Das von der Universität Trier und der University of Virginia, Charlottes- 
ville, USA, bereits 1999 durchgeführte Pionier-Projekt des Mittelhochdeutschen 
Textarchivs stellt rund 100 mittelhochdeutsche Texte in höchster Erfassungs- 
qualität zur Verfügung, viele davon als freie XML-Downloads.?° Andere sind 
auch über das Quellenarchiv des Mittelhochdeutschen Wörterbuchs zugänglich 
(siehe unten), denn das Vorhaben sollte vor allem das Belegkorpus für die 
Erstellung des neuen Mittelhochdeutschen Wörterbuchs digital verfügbar 
machen. Grundlage des Textarchivs waren daher Standardeditionen der Texte, 
die im Double-Keying-Verfahren erfasst wurden und in Kooperation mit dem 
damals in diesem Bereich führenden eText-Center der University Library in 
Charlottesville unternommen wurde, was den Know-how-Transfer in beide 
Richtungen enorm beförderte. 

Unter dem Dach Deutsch Diachron Digital (DDD) wurden balancierte Refe- 
renzkorpora zu den älteren Sprachstufen des Deutschen erstellt, die in einem 
sprachstufenübergreifenden tiefenannotierten Korpus historischer Texte des 


20 http://mhgta.uni-trier.de/ 
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Deutschen gebündelt sind. Das Referenzkorpus Altdeutsch”! erfasst und anno- 
tiert die ältesten Sprachdenkmäler des hochdeutschen und des niederdeut- 
schen Sprachraumes vom Beginn der schriftlichen Überlieferung um 750 bis 
etwa 1050 (Humboldt-Universität zu Berlin, Goethe-Universität Frankfurt am 
Main, Friedrich-Schiller-Universität Jena). Annotiert werden mindestens Satz- 
grenzen, Wortarten und Morphologie, tiefere Annotationen sind ebenfalls mög- 
lich. Analog verfährt das Referenzkorpus Mittelhochdeutsch (1050-1350) der 
Universitäten Bonn und Bochum, so dass die Korpora zu einem späteren Zeit- 
punkt zusammengefügt werden können. Aufgrund der Tiefenannotation 
können differenzierte und komplexe linguistische Abfragen durchgeführt 
werden, so dass das DDD-Korpus das Potenzial hat, zu einem zentralen 
Forschungsinstrument für die historische Linguistik zu werden und Anschluss 
an Korpora neuerer Sprachstufen verspricht. Anders als bei Referenzkorpora 
zu rezenten Sprachstufen wie das am IDS betreute,?? das ständig erweitert 
werden und Milliarden von laufenden Wortformen umfassen kann, sind die 
Korpora älterer Sprachstufen naturgemäß begrenzt und von Überlieferungs- 
zufällen abhängig — ein Umstand, der deutlicher zu Tage tritt, je weiter man in 
die Überlieferungsgeschichte zurückgeht. Die DDD-Korpora zum Mittelhoch- 
deutschen und Frühneuhochdeutschen sind nach verschiedenen Varietäten- 
aspekten soweit als möglich balanciert zusammengestellt und mit Metadaten 
und Annotationen versehen, um die Recherche- und Auswertungsergebnisse 
kritisch einordnen zu können (Lemnitzer & Zinsmeister 2010: 44-46, Perkuhn; 
Keibel & Kupietz 2012: 47-48). 

Ein lange etabliertes Angebot zur allgemeinen historischen und verglei- 
chenden Sprachwissenschaft liegt vor mit dem Thesaurus Indogermanischer 
Text- und Sprachmaterialien (TITUS),” die Jost Gippert (Frankfurt a.M.) auf- 
gebaut hat. Darunter ist Etliches zu alteren Kleinsprachen bzw. Sprachen mit 
schmaler Uberlieferung, so dass hier Wichtiges z. B. zum Cimbrischen versam- 
melt ist; dabei wird den konkreten Uberlieferungszeugnissen ebenso Beach- 
tung geschenkt wie der Transkription, der kritischen Edition und der gramma- 
tischen und semantischen Erschließung mit Hilfe digitaler Werkzeuge. 

Die Editionsphilologie gehört zu den early adopters digitaler Technologien 
und setzte den Computer friih als Werkzeug, nach der Etablierung des World 
Wide Web auch als Medium für kritische Editionen ein (Gartner 2011).7* Als 


21 www.deutschdiachrondigital.de/ 

22 wwwl.ids-mannheim.de/kl/projekte/korpora/ 

23 http://titus.fkidg1.uni-frankfurt.de/framed.htm?/index.htm 

24 Vgl. dazu auch die Tagungen und Publikationen der AG Germanistische Editionen: 
www.ag-edition.org/ 
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moderne Edition, die sich die Méglichkeiten des digitalen Mediums gut nutzbar 
macht, sei die Parzival-Edition? von Michael Stolz und seinem Team von der 
Universität Bern herausgegriffen. Neben Handschriftendigitalisaten mit ent- 
sprechenden Transkriptionen enthält diese Präsentation Editionsproben aus- 
gewählter Abschnitte, die sich durch Parallelpräsentationen und transparente 
Apparatgestaltung auszeichnen. In diesem Feld sind zwei Trends zu beobach- 
ten: Zum einen werden Kanontexte - z. T. solche mit komplexer Überlieferung 
wie der Parzival - digital neu ediert, zum anderen auch Texte, die eher zu den 
big unread zu zählen sind, digital verfügbar gemacht und ausgewertet. 


3.3 Wörterbücher und Sprachatlanten 


Einen Überblick über die wissenschaftlichen Wörterbücher, die zumeist von 
den deutschen Wissenschaftsakademien erstellt wurden und werden, gibt das 
Wörterbuchportal, das von der Berlin-Brandenburgischen sowie der Heidel- 
berger Akademie der Wissenschaften betreut wird.?° Es beinhaltet nicht nur 
eine Linkliste zu den entsprechenden Vorhaben, sondern auch eine über- 
greifende Suchmöglichkeit über verschiedene Volltextwörterbücher. 

Das von Kurt Gärtner, Klaus Grubmüller und Karl Stackmann begründete 
neue Mittelhochdeutsche Wörterbuch wird vollständig digital erarbeitet und mit 
einer moderaten moving wall von sechs Monaten nach Erscheinen der jewei- 
ligen Lieferung frei im Netz publiziert.” Das von den Akademien in Göttingen 
und Mainz betreute Vorhaben mit Arbeitsstellen in Göttingen, Mainz und Trier 
hat seit 2014 Ludwig M. Eichinger als Projektleiter. Seine digitale Publikation 
ist nicht allein mit dem digitalen Quellenarchiv, sondern auch mit den älteren 
Wörterbüchern verknüpft, so dass die Hilfsmittel zum Mittelhochdeutschen 
hervorragend zugänglich sind. Erfreulich ist, dass auch die laufenden Vor- 
haben zum Althochdeutschen?® und Frühneuhochdeutschen” mittlerweile digi- 
tal zugänglich sind. Zwar ist eine differenzierte übergreifende Recherche auf- 
grund der heterogenen Anlage der Wörterbücher nicht einfach, dennoch ist 
hier ein weiterer Schritt zu einem alle Sprachstadien umfassenden Wörterbuch 
des Deutschen getan — zu weitergehenden Erschließungs- und Vernetzungs- 
möglichkeiten unten mehr. 


25 www.parzival.unibe.ch/editionen.html 
26 www.woerterbuch-portal.de/ 

27 www.mhdwb-online.de/ 

28 http://awb.saw-leipzig.de 

29 https://fwb-online.de/ 
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Die Wörterbücher zum Althochdeutschen und Frühneuhochdeutschen 
wurden anders als das von Anfang an digital konzipierte Mittelhochdeutsche 
Akademie-Wörterbuch im laufenden Betrieb retrodigitalisiert. Hier waren die 
älteren Wörterbücher zum Mittelhochdeutschen Vorreiter:?° Die drei aufein- 
ander bezogenen abgeschlossenen Wörterbücher zum Mittelhochdeutschen 
(Benecke, Müller, Zarncke, Lexer und das Findebuch zum mittelhochdeutschen 
Wortschatz) sind volltextdigitalisiert, untereinander verknüpft und voll recher- 
chierbar sowohl als Verlagsangebot als auch online frei im Netz zugänglich 
und stehen nicht nur für die Nachschlagearbeit beim Übersetzen, sondern 
auch als differenziert durchsuchbare Datenbank für linguistische Arbeiten zur 
Verfügung. Ihre digitale Zugänglichkeit überbrückt zum einen die Zeit bis zur 
Fertigstellung des Neuen Akademiewörterbuchs, zum anderen bieten sie auf- 
grund ihres breiteren Zeitausschnitts (z.T. bis 1500, in Einzelfällen bis ins 
16. Jh.) andere Informationen, die in den modernen Sprachstadienwörter- 
büchern im mittelhochdeutschen und frühneuhochdeutschen Wörterbuch 
getrennt sind. 

Als ein Spezialwörterbuch sei hier noch das Deutsche Rechtswörterbuch 
erwähnt, das den Wortschatz der Sprache des Rechtslebens vom Beginn der 
schriftlichen Überlieferung im 5. Jahrhundert in merowingischen Urkunden 
bis hin zu Goethe erfasst und dabei die westgermanischen Varietäten berück- 
sichtigt.?”! Dank seiner Vernetzung mit anderen digitalen Wörterbüchern, 
insbesondere aber mit seinem Quellenarchiv, wird das Online-Angebot des 
DRW zu einem umfassenden Informationssystem ausgebaut. 

Aufgrund seines umfassenden Konzepts kann auch das Deutsche Wörter- 
buch der Brüder Grimm für die älteren Sprachstufen herangezogen werden, 
denn der ursprüngliche Plan sah eine Dokumentation der deutschen Sprache 
ab ca. 1450 vor.” Sehr häufig reichen die Belege und Beschreibungen jedoch 
darüber hinaus bis ins Alt- und Mittelhochdeutsche zurück bzw. umfassen im 
Etymologieteil auch die Vorgeschichte. 

Auch Dialekt- bzw. regionalsprachliche Wörterbücher liefern wertvolle 
sprachhistorische Informationen, sowohl was Lexik und Semantik, aber auch 
Lautwandel (z.B. zum Stand der zweiten Lautverschiebung) betrifft — sie sind 
damit wichtige Bindeglieder zwischen historischen und rezenten Varietäten 
und darüber hinaus geeignet, interessante didaktische und öffentlichkeitswirk- 
same Zugänge zu schaffen. 


30 www.mwv.uni-trier.de/ 
31 www.rzuser.uni-heidelberg.de/-cd2/drw/ 
32 http://dwb.uni-trier.de/de/ 
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Das Trierer Wörterbuchnetz führt die genannten und weitere verschiedene 
Wörterbücher unter einer gemeinsamen Suchoberfläche zusammen und ver- 
netzt Artikelteile semantisch.** In diesem großartigen Werkzeug steckt noch 
viel Potenzial für eine umfassende, auf transparenten Kriterien beruhende sys- 
tematische lexikographische Vernetzung und Forschungen zu linguistischen 
wie auch infrastrukturell-technologischen Aspekten. 

Wie erwähnt, kann auch über die Dialektologie ein Zugang zu sprachhis- 
torischen Themen geschaffen werden, so dass hier auch auf den Digitalen 
Wenkeratlas (DiWA)** hingewiesen werden muss. Wie der Wenkeratlas selbst 
stellt auch die digitale Version, die erstmals das Potenzial dieses Dokumen- 
tations- und Forschungswerkzeuges auszuschöpfen vermag, eine veritable 
Pionierleistung in der digitalen Sprachkartographie und den Digital Humani- 
ties dar. Neben Wenkers gedruckten und auch den bislang nur in zwei handge- 
zeichneten Exemplaren vorhandenen Karten sind weitere Regionalatlanten, 
die Digitalisate der Original-Wenkerbögen, Tondokumente sowie eine Biblio- 
graphie angebunden. Leicht zu bedienende Werkzeuge ermöglichen Überblen- 
dungen der Karten, was Einblicke in Dynamik und Variation regionalsprach- 
licher Erscheinungen bietet. Damit ist dieses Werkzeug nicht allein für die 
Forschung, sondern auch für die Lehre und die Vermittlung im curricularen 
Seminar, im Schulunterricht oder auch an Laien von größtem Wert. 


3.4 Werkzeuge 


Noch ein Wort zu digitalen Spezialwerkzeugen jenseits linguistischer Werk- 
zeuge, Korpustools und Natural Language Processing: Handschriftendigitalisate 
erlauben viel mehr als den „lesenden“ Zugriff des menschlichen Auges, denn 
an die Digitalisate lassen sich bestimmte Forschungsfragen richten, die mit 
entsprechenden digitalen Werkzeugen bearbeitet werden können. Sehr gut 
etabliert ist die digitale Paläographie in verschiedenen Domänen und Diszi- 
plinen, die sich in erster Linie um automatische Zeichen- und Handschriften- 
erkennung sowie Digitale Paläographien und Verzeichnisse bemüht (Ciula 2005; 
DigiPal; Quirke 2011; Stokes 2014; Fecker, Märgner & Schaßan 2015). Mittel- 
alterliche Handschriften, insbesondere die codices picturati des Sachsenspiegels, 
waren Gegenstand automatischer Analyse und Deutung von Bildmustern 
(Yarlagadda et al. 2013; SemToNotes). Die automatische Layoutanalyse gehört 
zu den Grundlagen im Bereich der OCR-Systeme, die vor allem bei moderneren 
Druckwerken, sehr großen Zeitschriftkorpora u.a.m. erfolgreich eingesetzt 


33 www.woerterbuchnetz.de 
34 www.diwa.info 
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wird. (Mittelalterliche) Handschriften weisen gegeniiber den gedruckten Vor- 
lagen eine individuelle Variation auf, die größere Herausforderungen an die 
Automatisierung stellt. Im Projekt eCodicology konnte der Nachweis geführt 
werden, dass Untersuchungen zu physikalischen Eigenschaften und zur mate- 
riellen Gestalt von Handschriften am Digitalisat durchgeführt werden können 
(Busch et al. 2017).° In den Möglichkeiten, die für die Auswertung digitaler 
Image-Derivate mittelalterlicher Zeugnisse aufgezeigt werden, liegt ein großes 
Zukunftspotenzial, das noch kaum angedacht, geschweige denn ausgeschöpft 
ist. Die Übertragbarkeit auf andere Materialen, z.B. Briefsammlungen und 
Zeitschriftenkorpora ist ebenfalls bereits erwiesen. 


3.5 Fachkommunikation 


Seit vielen Jahren hat sich das gut betreute und gepflegte, als Privatinitia- 
tive und mittlerweile in eine GbR überführte mediävistische Fachportal 
mediaevum.de” etabliert, das nicht nur als zuverlässiger Wegweiser zu fach- 
spezifischen Angeboten wie digitalen Publikationen, Hilfsmitteln und Daten- 
banken dient, sondern auch Aufgaben der Kommunikation innerhalb der 
Fachcommunity übernimmt: Dazu gehören Funktionalitäten wie die von der 
Community selbst gepflegte Projektdatenbank, ein Tagungskalender, ein Stel- 
lenmarkt oder ein Diskussionsforum mit zahlreichen, auch für Anfänger inte- 
ressanten Themenknoten. 

Auf dem Blogportal Hypotheses” bündelt eine Initiative von Martin Bauch, 
Karoline Döring und Björn Gebert ein vielfältiges und professionelles Angebot 
zur interdisziplinären Wissens- und Wissenschaftskommunikation. Klassische 
Informationsformate wie Tagungsüberblick, Rezensionsaggregation oder 
Diskussionsforum werden ergänzt durch verschiedene Publikationsformate, 
so dass das Portal eine echte Lücke im wissenschaftlichen Kommunikations- 
angebot zu schließen vermag. 

Eine Brücke zwischen Mittelalter und dem Social-Media-Kanal Twitter (und 
auch auf Facebook) schlagen seit 2016 Wernfried Hofmeister und Ylva Schwing- 
hammer mit ihrer erfolgreichen Ausstellung #Dichterleben — mittelalterliche 
tweets aus der Steiermark.?® Sie zeigen damit, wie die Vermittlung mediävis- 


35 www.ecodicology.org 

36 www.mediaevum.de 

37 http://mittelalter.hypotheses.org/ 

38 www.kommunikation.steiermark.at/cms/beitrag/12472070/29771102. 
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tischer Inhalte auf innovative Weise und auf eine breitere Offentlichkeit aus- 
gerichtet bereichert werden kann.*° 


4 Ausblick 


Digitale Forschungsinfrastrukturen haben auch in der Germanistischen Media- 
vistik einen Paradigmenwechsel bewirkt: Sowohl durch den ubiquitären und 
transparenten Zugriff auf unikale Objekte als auch durch die neuen For- 
schungs- und Vernetzungsmöglichkeiten für Materialien wie auch für 
Forschende. Es wird nun gelten, die vorhandenen Mosaiksteine übergreifend 
zusammenzuführen und an die Angebote zur neueren und zur Gegenwarts- 
sprache anzubinden. Die deutsche Sprache ist in verschiedenen Spezialwörter- 
büchern, Korpora und Sprachatlanten in einer Tiefe und Dichte erschlossen 
wie wenige andere, digitale Forschungsinfrastrukturen und Technologien er- 
lauben die Vision eines umfassenden Informationsnetzwerks zum Deutschen 
für eine wieder als Einheit verstandene Digitale Philologie. Die Umsetzung die- 
ser Vision erfordert nicht allein technologische und algorithmische Entwick- 
lungen, sondern auch und vor allem philologische Forschungen und Anstren- 
gungen (vom politischen Willen und Ressourcen ganz zu schweigen) - allen 
Händen ist also vollauf Arbeit zugedacht. Für die digitalen Infrastrukturen 
wird es weiterhin darum gehen, die Balance zu finden zwischen Weiterent- 
wicklung und Bewahrung, Stabilität und Dynamik (Neuroth & Rapp 2016). 
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Für alle zweige deutscher sprache, dies wort in einer völlig zulässigen weitesten 
bedeutung genommen, eröffnet sich, je weiter die forschung vorrückt, immer 
lohnendere aussicht, und allen händen, die sich zum anbau dieses feldes 
anschicken, ist vollauf arbeit zugedacht. 


Martine Dalmas und Roman Schneider 

12 Die grammatischen Online-Angebote 
des IDS aus Sicht der Germanistik 
im Ausland 


Gegenwart und Zukunft 


Abstract: Seit Mitte der 1990er Jahre wird am Institut fiir deutsche Sprache 
(IDS) in Mannheim erforscht, wie der hochkomplexe Gegenstandsbereich 
„Grammatik“ unter Ausnutzung digitaler Sprachressourcen und hypertextueller 
Navigationsstrukturen gleichermaßen wissenschaftlich fundiert und anschau- 
lich vermittelt werden kann. Die grammatischen Online-Informationssysteme 
des IDS wenden sich nicht allein an Forscher und die interessierte Öffentlich- 
keit in Deutschland, sondern in gleichem Maße an Germanisten und Deutsch- 
Lernende in der ganzen Welt. Der vorliegende Beitrag beschreibt die damit ver- 
bundenen Hoffnungen und Ansprüche. Daran anschließend thematisiert er 
praktische Einsatzmöglichkeiten und skizziert die funktionale und inhaltliche 
Weiterentwicklung der digitalen Grammatik-Angebote. 


Keywords: Auslandsgermanistik, Deutsch als Fremdsprache, Grammatik, Hyper- 
text, Informationssysteme 


1 Sprachbeschreibung heute: zwischen 
„Schnee von gestern“ und Zukunftsmusik 


Zu den Sorgen und Herausforderungen unserer modernen Gesellschaft, aber 
auch zu ihren neuen Potenzialen gehören moderne Kommunikationsformen, 
die im Kontext der Internationalisierung entstanden sind und durch den Ge- 
brauch digitaler Informationstechnologien neue Chancen in der Forschung, 
der Bildung und der Lehre eröffnen. Parallel zu dieser Entwicklung führt die 
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Internationalisierung der Geisteswissenschaften — über die europäischen Gren- 
zen hinaus — zu Anpassungen, d.h. zwangsläufig zu Engpässen, aber auch zu 
neuen Sichtweisen. Auch die Einbindung der Nationalsprachen in ein mehr- 
sprachiges Europa und vor allem in eine globalisierte Welt kann Hoffnungen 
und Ängste aufkommen lassen. So hat die Diskussion über Spracheinstellun- 
gen und insbesondere über Einstellungen zur deutschen Sprache seit einigen 
Jahren an Schärfe gewonnen und ist in den Mittelpunkt der Debatte um die 
Stellung des Deutschen gerückt. Die „außenstehenden“ Germanistinnen und 
Germanisten, die von Natur aus „zwischen den Sprachen“ stehen, beobachten 
mit großem Interesse den Umgang der deutschen Muttersprachlerinnen und 
Muttersprachler mit ihrer Sprache sowie ihre sprachpflegerischen Ansprüche 
und sprachpolitischen Erwartungen. 

In dieser Hinsicht rückt das Institut für deutsche Sprache (IDS) in den Vor- 
dergrund: Es ist und bleibt ein wichtiger Anhaltspunkt und Indikator, nach 
innen und nach außen, also sowohl in seinen neuen Forschungsorientierun- 
gen als auch in Bezug auf seine Angebote und die bereitgestellten Materialien 
für Sprachinteressierte. Dass Online-Verfahren manche Wege verkürzen und 
erleichtern und Menschen einander näher bringen, steht außer Zweifel. Diese 
Möglichkeit wird — neben Bildungsinstitutionen — immer mehr von Wissen- 
schaftlerinnen und Wissenschaftlern sowie wissenschaftlichen Einrichtungen 
genutzt, um ihre Arbeitsergebnisse einer breiteren Leserschaft zugänglich zu 
machen, den wissenschaftlichen Dialog zu fördern und den Kontakt zur Öffent- 
lichkeit herzustellen. Dass das IDS da keine Ausnahme bildet, erfreut die Außen- 
stehenden und steht im Dienst der deutschen Sprache! 

Zu den vielfältigen Online-Angeboten des IDS gehören bereits seit Ende 
der Neunzigerjahre die Plattformen Grammis und ProGr@mm (Breindl, 
Schneider & Strecker 2000, Schneider & Schwinn 2014), zwei umfangreiche 
Informationssysteme, die sich an alle Germanisten und Germanistinnen sowie 
Sprachinteressierte im In- und Ausland wendet. Gegenstand dieser Systeme ist 
nicht nur die ausführliche Beschreibung der grammatischen Strukturen des 
Deutschen, sondern auch die Bereitstellung linguistisch relevanter Dokumen- 
tationen und Informationsquellen zur Vertiefung bestimmter Aspekte sowie zu 
weiterführenden methodischen oder inhaltlichen Fragestellungen. 

Wir werden hier auf einige Aspekte dieser grammatischen Online-Angebote 
eingehen, die für die Arbeit mit und an der deutschen Sprache im nicht- 
deutschsprachigen Ausland als besonders relevant und hilfreich betrachtet 
werden können. Unter Berücksichtigung der aktuellen Lage an internationalen 
Universitäten wird zunächst die Frage nach den Zielgruppen, ihrer Beschaffen- 
heit und ihren Erwartungen aufgeworfen, dann werden die Module der beiden 
grammatischen Angebote kurz vorgestellt und ihre Nutzungsmöglichkeiten als 
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interaktives Nachschlageinstrument unter die Lupe genommen. Anschließend 
gehen wir noch einmal auf die Stellung des grammatischen Wissens und auf 
die möglichen Zugangsformen ein und formulieren einige Desiderata. Zum 
Abschluss geben wir einen kurzen Ausblick auf die künftige Entwicklung der 
grammatischen Onlinesysteme des IDS. 


2 Grammatik nach der sogenannten 
„kommunikativen Wende“ 


Wir gehen davon aus, dass die Relevanz eines wissenschaftlich motivierten 
Informationssystems mit der Charakterisierung ihrer Nutzerinnen und Nutzern 
eng verbunden ist. Entsteht ein solches Angebot, das grammatisches Wissen 
zugänglich macht und weitere Informationsquellen integriert, an einem For- 
schungsinstitut wie dem IDS, das 1997 eine dreibändige Grammatik der deut- 
schen Sprache hervorgebracht hat, dann gewinnt der Schulterschluss zwi- 
schen Forschung und Lehre an Bedeutung, erweitert die Perspektive, aber 
gerät gleichzeitig in ein Dilemma: Sowohl die Wahl der Inhalte als auch ihre 
Gestaltung zwingen die Autoren mitunter zu Einschränkungen, Kürzungen 
und evtl. auch Vereinfachungen, aber gleichzeitig auch zu Erweiterungen 
(zwecks Explizierung), die die Wünsche und Erwartungen, aber vor allem auch 
die Defizite und Bedürfnisse der Anwender berücksichtigen sollen. 

Wenn Grammis und Progr@mm sich an Germanistinnen und Germanisten 
wenden, dann sowohl an Studierende als auch an Lehrende, d.h. in letzterem 
Fall auch indirekt an Studierende. Ob Deutsch die Muttersprache ist oder nicht: 
Ihre Vorkenntnisse in der deutschen Grammatik sind oft eher spärlich. Parado- 
xerweise scheint die sogenannten „kommunikative Wende“ in den Lehr- und 
Lernmethoden bei den Mutter- sowie auch den Fremdsprachen in den letzten 
Jahrzehnten die Kenntnis und Beherrschung der grammatischen Bezüge in Äu- 
ßerungen und Texten stark in den Hintergrund gestellt bzw. reduziert zu ha- 
ben. Anstatt, wie man es durch eine nunmehr aktivere Rolle der Lernenden im 
Unterricht hätte erwarten dürfen, die Kenntnis des Systems zu fördern, sie zu 
erweitern, indem auch Strukturen der gesprochenen Sprache thematisiert, be- 
schrieben und erlernt werden, stellt man in vielen Ländern immer wieder fest, 
dass Kenntnis und Beherrschung des Sprachsystems eher nachgelassen haben. 

Vor diesem Hintergrund ist das Wecken des Interesses für eine erklärende 
Beschreibung der grammatischen Strukturen des Deutschen, zumal bei Studie- 
renden mit noch mangelhaften Sprachkenntnissen, eine Herausforderung, die 
nicht unbedingt leicht zu meistern ist. Da, wo man denken könnte, dass die 
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Darstellung eines zusammenhängenden und kohärenten Systems, die in den 
Jahren vor der Universität gefehlt hat, besonders willkommen sein könnte, 
stößt man bei den Studierenden immer wieder auf Widerstandsformen, die zu- 
nächst erklärt, evtl. besprochen und aufjeden Fall überwunden werden müssen. 

Diese Herausforderung trifft insofern auch die Lehrkräfte, als es dann in 
vielen Fällen darum geht, das Wissen zu selektieren und zu adaptieren, bevor 
es weitergegeben bzw. umgesetzt wird. Darauf sind aber die meisten Lehrkräfte 
nicht vorbereitet, denn die dazu nötige pädagogische Ausbildung bzw. die er- 
wünschte Weiterbildung fehlen weitgehend. Hinzu kommt, dass die Sprach- 
wissenschaft in den Curricula mancher Länder eher ein Orchideendasein 
fristet, was sich bis in den Lehrerberuf auf die Motivation für eine eingehende 
und „aufklärerische“ Sprachbeschreibung auswirkt. 

Dass die kommunikative(n) Kompetenz(en) aber nicht ohne die Beherr- 
schung der verschiedenen Standards auskommt/auskommen und diese - 
zumindest teilweise - auch auf eine bewusste Kenntnis von System und 
Gebrauch zurückgeht, sollte außer Frage stehen. Dies gilt für alle Germanisten 
und Germanistinnen oder DaF-/DaZ-Lehrenden und Lernenden. Auch auf einem 
höheren Niveau sind geeignete Nachschlageinstrumente vonnöten, sie müssen 
allerdings differenziert und zweckmäßig ausgewählt werden. Aus dieser Per- 
spektive werden im Folgenden die Möglichkeiten vorgestellt, die mit Grammis 
und ProGr@mm angeboten werden. 


3 Ein gelungener Spagat: Wie Grammis 
und ProGr@mm konzipiert sind 


Sowohl Grammis (Grammatisches Informationssystem) als auch ProGr@mm 
(Propädeutische Grammatik) sind digitale Angebote, die dem Nutzer Zugang zu 
Fachtexten und Ressourcen zur deutschen Grammatik bieten (vgl. z.B. Storrer 
1997; Strecker 1998; Schneider 2004). Sie unterscheiden sich allerdings in ihrer 
inhaltlichen Gestaltung, denn ihre Ziele und ihr Zielpublikum sind zum Teil 
andere. Auch wenn sie beide als „hypermediale Nachschlageinstrumente per 
Mausklick“ zu grammatischen Fragen zu betrachten sind, indem sie Erklärun- 
gen und Hintergrundwissen bieten, und auch wenn sich beide — zumindest 
ursprünglich — auf die am IDS entstandene Grammatik der deutschen Sprache 
(Zifonun et al. 1997) als theoretische Grundlage stiitzen und deshalb eine ge- 
meinsame Grundstruktur aufweisen, sind sie zum Teil unterschiedlich konzi- 
piert und orientiert. Dies hängt nicht zuletzt damit zusammen, dass ProGr@mm 
später entstanden und explizit didaktisch ausgerichtet ist. 
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Wir gehen hier zunächst auf die Gesamtstruktur beider Plattformen ein 
und befassen uns dann näher mit dem Teilbereich, der unterschiedlich konzi- 
piert ist: dem jeweiligen Grammatik-Teil. 

Die ursprünglichen Implementierungen von Grammis und ProGr@mm ent- 
halten jeweils sechs Module, die zu 50% dieselben sind, so dass von inhalt- 
lichen und funktionalen Überschneidungen zwischen den beiden Plattformen 
gesprochen werden kann. Gemeinsam sind das Grammatische Wörterbuch (aus 
drei bzw. vier Einzelwörterbüchern bestehend: zu Affixen, zu Präpositionen, 
zur Verbvalenz und — bei Grammis — zu Konnektoren), die Grammatische Biblio- 
grafie (mit einer feingranular ausgearbeiteten Suche nach Objekt- oder Schlag- 
wörtern und der Möglichkeit, individuelle Merklisten zu kompilieren) und das 
Terminologische Wörterbuch bzw. die Grammatischen Fachtermini (mit Defini- 
tionen der benutzten Fachausdrücke und Angaben zu äquivalenten Bezeich- 
nungen in anderen Sprachen). 

Interessanterweise enthält bereits das relativ frühe Grammis zwei Module, 
die sich an zwei ganz verschiedene Nutzerkreise wenden: Das eine Modul 
(Korpusgrammatik) ermöglicht einen Blick in die Hexenküche der Gramma- 
tiker, nämlich in die korpusgestützte Forschung, und beinhaltet technische 
und methodologische Informationen zum Umgang mit Korpora sowie auch - 
exemplarisch aufzufassende - Ergebnisse spezieller Untersuchungen, die 
unter Zuhilfenahme authentischer Textkorpora durchgeführt wurden (Pilot- 
studien zu Fugen-Elementen, Genitiv-Markierungen und AclI-Konstruktionen 
bzw. wie-Sätze); mittelfristig angestrebt wird eine umfassende, dezidiert korpus- 
gestützt erarbeitete Grammatik des Deutschen (vgl. Bubenhofer, Konopka & 
Schneider 2014). Das andere Modul (Grammatik in Fragen und Antworten), das 
sich eher an ein breiteres Publikum wendet, befasst sich mit Zweifelsfällen 
bzw. mit häufig gestellten Fragen zu Schwierigkeiten, für die man in den gän- 
gigen Grammatiken nicht unbedingt oder nicht sofort eine Antwort findet (vgl. 
Konopka 2006; Konopka & Schneider 2012). Neben der Grundfrage zur Bedeu- 
tung von „Grammatik“ werden hier morphologische, syntaktische, aber zum 
Teil auch stilistische oder lexikalische Fragestellungen beantwortet: Die Breite 
der angesprochenen Themen zeugt von einem ebenfalls breit aufgefassten 
Grammatikbegriff, der nicht nur präskriptiv, sondern auch gebrauchsorientiert 
ist und Standard und Variation, auch regionale, in Verbindung bringt. Für die 
Hilfesuchenden, die das berühmt-berüchtigte „Kreuz mit Grammatiken“ nicht 
erleben möchten, ist dieses Modul ein besserer, direkter Weg — vorausgesetzt 
allerdings, ihr grammatisches Problem gehört zu den hier behandelten Themen 
bzw. sie sind in der Lage, die dazu passende Frage zu finden. 

ProGr@mm, später entwickelt und häufig als E-Learning-Hypertextsystem 
bezeichnet (vgl. Schwinn 2005), ist, wie oben schon angedeutet, didaktisch 
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ausgerichtet und enthält deswegen zwei Module, die mit einer spezifischen 
Lehrsituation zusammenhängen: einerseits ein „kontrastives“ Modul, auf das 
wir unten noch eingehen werden, und ein interaktives Forum als Kommunika- 
tionsplattform für Seminarveranstaltungen, das auf angemeldete Teilnehme- 
rinnen und Teilnehmer beschränkt ist. Ebenfalls im System angemeldete 
Seminarleiter und Seminarleiterinnen ermöglichen diesen den Zugang zum 
Forum und können auf spezielle Systemfunktionalitäten zurückgreifen, die 
den Austausch mit Studierenden fördern. 

Das Modul Kontrastiv geht auf ein vom deutschen Staat finanziertes, inter- 
nationales Projekt mit dem Namen EuroGr@mm zurück, das unter Leitung des 
IDS zwischen 2007 und 2012 fünf Universitäten in nicht-deutschsprachigen 
Ländern zusammenführte und sich zum Ziel gesetzt hatte, eine Adaption der 
im Grammatischen Grundwissen vorhandenen Inhalte vor dem Hintergrund der 
jeweiligen Muttersprachen, ihrer Eigenheiten sowie ihrer grammatikalischen 
bzw. grammatikografischen Traditionen vorzunehmen (vgl. z.B. Augustin 2009; 
Dalmas, Fabricius-Hansen & Schwinn 2016). Insofern ist es keine kontrastive 
Grammatik im engen Sinne, sondern eher ein kontrastiver Blick auf die gram- 
matischen Strukturen des Deutschen. Somit wendet sich ProGr@mm sowohl an 
Lehrkräfte und Studierende mit Deutsch als Muttersprache, als auch an solche, 
deren Herkunft oder Standort außerhalb des deutschen Sprachraums liegen 
und deren Zugang zur deutschen Sprache den Bezug auf eine andere Sprache 
(bewusst oder unbewusst) mit einbezieht. 


4 Die unterschiedlichen Einsatzmöglichkeiten 
der grammatischen Online-Angebote 


Die unterschiedliche Ausrichtung der beiden Angebote, die sich an Zielgrup- 
pen mit zum Teil stark divergierenden Bedürfnissen wenden, ermöglicht diffe- 
renzierte Zugriffs- und Nutzungsformen, auf die wir nachfolgend eingehen 
wollen. 
Es können drei Hauptsituationen genannt werden, die zur Nutzung von 
Grammis bzw. Progr@mm führen können: 
a) das gezielte Nachschlagen und Nachprüfen bestimmter Formen, Gebrauchs- 
weisen oder Definitionen, 
b) die Suche nach präzisen und eingehenden Kommentaren zu grammatischen 
und pragmatischen Funktionen, sowie 
c) das Zusammenstellen einschlägiger Literatur zu bestimmten Themen. 
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a. Beim Nachschlagen geht es den Nutzerinnen und Nutzern meistens um ein 
schnelles Nachpriifen einer Form im Zusammenhang mit ihrer Funktion (bzw. 
ihren Funktionen) oder um eine Definition. Die Suchoptionen sowie die Quer- 
verweise durch Links ermöglichen einen relativ einfachen Zugang aus ver- 
schiedenen Perspektiven, der viel leichter und schneller erfolgen kann als ein 
mühsames Blättern in mehreren Bänden (mit entsprechendem Vormerken von 
Kapitelüberschriften und Seitenzahlen!). Das unter Heranziehung exempla- 
rischer Phänomene gestaltete Modul Grammatik in Fragen und Antworten 
kommt insbesondere bei grammatischen Zweifelsfällen ins Spiel. Darüber 
hinaus empfiehlt sich bei Bedarf nach einer gleichermaßen präzisen und präg- 
nanten Begriffsbestimmung der Rückgriff auf das Terminologische Wörterbuch, 
das in kompakter Form mit Beispielen angereicherte Definitionen gramma- 
tischer Termini liefert. Bei ProGr@mm sind außerdem im Grammatischen 
Grundwissen sowie im Kontrastiv-Modul Übungen und Kontrollaufgaben über 
anklickbare Fenster zu erreichen, die zum Teil einen tieferen Einblick in 
Sprachsystem und Sprachgebrauch ermöglichen. Manche Übungen setzen ein 
reflektiertes Verhältnis zu grammatischen Kategorien voraus bzw. fördern ein 
solches Bewusstsein. 


b. Die Suche nach umfassenden und weiterführenden Kommentaren erfolgt 
meistens im Rahmen einer wissenschaftlichen Arbeit bzw. eines Seminars, 
wobei die Nutzer und Nutzerinnen aufgrund einer reflektierten Auseinander- 
setzung mit dem Sprachsystem und dem Sprachgebrauch vertiefte Erkenntnisse 
gewinnen wollen. Die Ebene der Sprachbeschreibung wird in Grammis (Modul 
Systematische Grammatik) und ProGr@mm (Modul Grammatisches Grundwissen) 
unterschiedlich vertreten. Während Grammis den Informationssuchenden von 
Anfang an mit in der Forschung divergierenden Ansichten konfrontiert und sie 
unter Zuhilfenahme entsprechend markierter Vertiefungstexte in die Diskus- 
sion (etwa zum Valenzbegriff oder zu Endungen finiter Verben) mit einbezieht, 
verfährt die eher als Lernplattform konzipierte propädeutische Grammatik 
ProGr@mm in mehreren Etappen, indem sie über die allgemeine, einfache 
Beschreibung der Formen und Funktionen hinaus sukzessive die Möglichkeit 
bietet, sich bei Bedarf genauer zu informieren, z.B. über unterschiedliche 
Ansichten oder über bestimmte theoretische Hintergründe. Lehrende können 
außerdem einen Raum für Seminare einrichten, wo Seminarleiter oder Seminar- 
leiterin den Teilnehmerinnen und Teilnehmern themenspezifische Materialien 
zur Verfügung stellen kann. Das dazu gehörende Forum ist ein Ort des Aus- 
tauschs für alle Beteiligten. 

Das Kontrastiv-Modul geht in Bezug auf die Sprachbeschreibung noch ein 
Stück weiter. Es liefert zusätzliche Informationen, die vor dem Hintergrund 
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einer anderen Sprache von Relevanz sind, und zwar entweder weil das System 
des Deutschen anders gestaltet ist oder die Form-Funktion-Relation eine andere 
ist oder weil die grammatische Tradition in dem jeweiligen Land eine andere 
Herangehensweise an die Formen und Funktionen pflegt. Solche Informationen, 
zu denen Nutzerinnen und Nutzer nur wahlweise greifen, sind in sogenannten 
Vertiefungsabsätzen enthalten, die nach Bedarf angeklickt werden können und 
erst dann vollständig sichtbar werden. So zum Beispiel bei den Tempora 
(sowohl bei den Formen als auch bei ihrem Gebrauch) oder bei der sogenannten 
Wortstellung (die ja meistens eher eine Satzgliedstellung ist) im Zusammen- 
hang mit der Informationsstruktur der Äußerung. 

Da in Grammis die Themen grundsätzlich tiefgründiger behandelt werden, 
bleibt es für Wissenschaftler und Wissenschaftlerinnen, aber auch für fort- 
geschrittene Germanistinnen und Germanisten (Studierende und Lehrende) ein 
wichtiges, weil quasi komplettes Hilfsmittel zur Beschreibung von Formen und 
Strukturen des Deutschen. An die am IDS erarbeitete, dreibändige Grammatik 
der deutschen Sprache angelehnt, ermöglicht das darin enthaltene Modul 
Systematische Grammatik einen genauen Einblick in die grammatischen Struk- 
turen des Deutschen aus unterschiedlichen Perspektiven. Die multimediale 
Aufbereitung ermöglicht eine sachgerechte Veranschaulichung der beschriebe- 
nen Formen und Strukturen, und die intuitive Hypertext-Navigation erleichtert 
die Zugriffswege zu verteilten Informationen. Zu erwähnen sind hier noch 
weitestgehend in alle Hypertexteinheiten integrierte Rubriken wie Weiter- 
führendes oder Zusätzliche Literatur in Auswahl, die sich vor allem an Wissen- 
schaftlerinnen und Wissenschaftler wenden, die sich vertiefend mit dem jewei- 
ligen Thema beschäftigen wollen. 


c. Die gezielte Suche nach einschlägiger Literatur erfolgt über das Modul 
Grammatische Bibliographie. Es enthält ein Recherche-System mit mehreren 
Suchoptionen bzw. -feldern, das eine genaue Eingabe nach verschiedenen 
Kriterien ermöglicht und sowohl selbstständige (Monografien, Sammelbände, 
Festschriften, Hochschulschriften etc.) als auch unselbstständige (Aufsätze, 
Artikel, Rezensionen etc.) Literatur umfasst. Abgedeckt werden gleichermaßen 
Print- und digitale Online-Publikationen. Die Nutzerinnen und Nutzer haben 
anschließend die Möglichkeit, ihre eigene Literaturliste zusammenzustellen 
und sie als persönliche Merkliste einfach zu kopieren und in eine Word-Datei 
einzufügen oder in standardisierten Formaten (BibTeX oder EndNote bzw. RIS) 
zu speichern, so dass die Daten in externen Literaturverwaltungsprogrammen 
gespeichert werden können. Dadurch wird das meist mühevolle Auflisten von 
bibliografischen Angaben bei wissenschaftlichen Arbeiten oder das Aufbereiten 
von Literaturlisten für Seminare erleichtert. Die Eingabe kann sich auf ein 
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einziges Kriterium beschranken, aber auch mehrere Kriterien kombinieren. 
Besonders wertvoll sind einerseits das Kriterium der untersuchten Sprachen, 
durch das die sprachvergleichende Dimension berücksichtigt werden kann, 
und andererseits das Kriterium des Objektsworts, das in einem Scrollfeld an- 
hand einer ausfiihrlichen Liste von Lexemen, Morphemen und Graphemen 
ausgewählt werden kann und eine gezielte Suche ermöglicht. 

Insgesamt zeichnen sich die grammatischen Online-Angebote des IDS also 
durch ihre vielfältigen und differenzierten Einsatzmöglichkeiten aus, sie wen- 
den sich an einen breiten Benutzerkreis und sind eine willkommene, attraktive 
Alternative, sich mit Fragen der deutschen Grammatik auf verschiedenen 
Ebenen zu befassen. Im Zeitalter eines mancherorts tendenziell „grammatik- 
feindlichen“ Sprachunterrichts und einer der Linguistik gegenüber gelegent- 
lich immer noch misstrauisch eingestellten Germanistik ist der Beitrag solcher 
wissenschaftlich fundierter Informationssysteme umso wichtiger. Es geht näm- 
lich nicht nur darum, grammatische Kenntnisse zu vermitteln, sondern auch 
(und vor allem) zu verdeutlichen oder gar offenzulegen und das System 
der Sprache aus verschiedenen Perspektiven zu beleuchten. Die Navigations- 
optionen, die durch das Gestaltungsprinzip „Hypertext“ entstehen, leiten die 
Informationssuchenden viel intuitiver und gegenstandsnäher durch das 
Dickicht der Sprachformen als die sonst ziemlich mühsamen Umwege und 
labyrinthischen Irrwege über Wort- und Sachverzeichnisse traditioneller Gram- 
matikbücher. 


5 Die nächste Zukunft: Desiderata und Ausblicke 


Was durch den digitalen Wandel und insbesondere durch gegenstandsgerecht 
eingesetzte Multimedialität im positiven Sinne möglich gemacht wird, darf 
nicht den Blick auf Verbesserungspotenzial und mögliche Fallstricke verstel- 
len. Dies gilt insbesondere für Anwendungen, die auf sich im dynamischen 
Wandel befindliche Techniken zurückgreifen oder an der Schnittstelle zwi- 
schen sich ebenfalls in Entwicklung befindlichen akademischen (Teil-)Dis- 
ziplinen liegen. Im Falle hypermedialer Online-Informationssysteme - interes- 
santerweise werden die beiden zur Entstehungszeit von Grammis und 
ProGr@mm hochaktuellen Begriffe „Hypertext“ und „Hypermedia“ in der wis- 
senschaftlichen Fachdiskussion mittlerweile eher selten explizit thematisiert — 
stammen wegweisende Impulse nicht allein aus der Linguistik bzw. Germa- 
nistik, sondern vermehrt aus Arbeiten der Nachbardisziplinen Medien- und 
Kommunikationswissenschaft, Computerlinguistik und Digital Humanities 
sowie der vielfältigen informatischen Spezialgebiete (Digitalisierung, Retrieval, 


278 = Martine Dalmas und Roman Schneider 


Visualisierung etc.). Nachfolgend wird deshalb auf einige interdisziplinäre Per- 
spektiven und Desiderata in Bezug auf die grammatischen Online-Angebote 
des IDS eingegangen; damit einher geht eine Skizzierung ihrer inhaltlichen 
und funktionalen Weiterentwicklung. 


5.1 Optimierung der Benutzungsoberfläche 


Gerade bei Online-Anwendungen lässt sich der technisch-gestalterische 
Alterungsprozess kaum aufhalten. Grammis und ProGr@mm sind bereits seit 
Ende der 1990er Jahre im praktischen Einsatz und wurden von Anfang an 
regelmäßig weiterentwickelt und -gepflegt, aber das Design hat sich während 
der ersten zwei Jahrzehnte nur sporadisch geändert. Während die wissen- 
schaftlichen Inhalte vom berühmt-berüchtigten Zahn der Zeit weitgehend ver- 
schont blieben, haben sich durch extreme Diversifizierung der für den Zugang 
nutzbaren Hardware inzwischen mannigfaltige neue Anforderungen ergeben. 

An erster Stelle dürfte hier sicherlich die Verbreitung mobiler Endgeräte 
stehen. Zwar werden die grammatischen Online-Systeme nachweislich weiter- 
hin zumeist am klassischen Desktop-PC genutzt, insbesondere wenn diese Nut- 
zung im Zusammenhang mit der Abfassung umfangreicher wissenschaftlicher 
Studien oder der Vorbereitung einer Seminararbeit steht. Zunehmend kommen 
jedoch auch Laptops, Tablets oder Smartphones zum Einsatz, etwa für das 
punktuelle Nachschlagen unterwegs, während einer Vorlesung etc.! Damit 
verbunden sind dann zwangsläufig eine begrenztere Bildschirmgröße, redu- 
zierte Interaktionsmechanismen (z.B. fehlende oder simulierte Tastatur, 
Touchscreen an Stelle eines Mauszeigers) sowie erhöhte Anforderungen an die 
Reaktionszeiten der Online-Systeme. Um diesen technischen bzw. medialen 
Entwicklungen Rechnung zu tragen, wurde der Internetauftritt der gramma- 
tischen IDS-Angebote - auch unter Einbeziehung von Erkenntnissen, die von 
Grammis inspirierte Portale für andere Sprachen gesammelt haben (vgl. z.B. 
Landsbergen, Tiberius & Dernison 2014) — ab 2018 konsequent überarbeitet 
und responsiv gestaltet. Beim Aufruf einer Seite wird seither automatisch 
erkannt, welcher Art das benutzte Endgerät ist, und die Anzeige - durch Än- 
derung der Schriftgrößen, Skalierung und Positionierung von Grafiken, 


1 Entsprechend detaillierte Aufschlüsselungen der Grammis-Onlinezugriffe nach Endgeräte- 
typen und Betriebssystemen — und darüber hinaus nach diversen anderen relevanten Meta- 
daten - bildeten den Ausgangspunkt der beschriebenen Optimierungen sowie daran anschlie- 
ßender Überlegungen zur Konzeption einer speziell für den mobilen Einsatz optimierten 
Smartphone-App. 
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Konnektoren sind sprachliche Ausdrücke, die Sätze In eine g 
spezifische semantische Beziehung zueinander setzen können. Das 

sind im Deutschen etwa 300 Ausdrücke, die traditionell als 

Konjunktionen und als bestimmte Subklassen von Adverbien und 

Partikeln beschrieben werden. 


Typische Beispiele 


Das Haus Ist ziemlich klein, aber es liegt sehr schön. 

Wir haben im Lotto gewonnen, sodass wir uns ein Haus kaufen können. 

Wir müssen mehr sparen, sonst können wir das Haus nicht kaufen. Weiterführende 
Sie haben nur wenig Eigenkapital, trotzdem wollen sie ein Haus kaufen. Links 

Sie haben nichts gespart und keine Bank will ihnen Geld leihen. 

Vorausgesetzt, man hat Eigenkapital, geben die Banken gern Geld. 

Das Haus ist ein echtes Schnäppchen, wir sollten es also nehmen. Nogeortate 
Das Haus ist schon ziemlich alt, es steht jedenfalls unter Denkmalschutz. 


Abb. 12.1: Responsives Design und funktional orientierte Gliederung. 


Ein- bzw. Ausblenden von Bedienelementen wie Menüleisten etc. - dynamisch 
angepasst und optimiert (vgl. Abb. 12.1). 

Im Gegenzug hat sich abseits des mobilen Einsatzbereichs, also bei der 
stationären Nutzung am Schreibtisch, die Qualität der eingesetzten Anzeige- 
geräte in jüngerer Zeit tendenziell erhöht; dies betrifft Parameter wie Bild- 
schirmgröße, Auflösung oder Farbtiefe. Ein darauf reagierendes Layout mit 
vielfältigeren Differenzierungs- und Hervorhebungsmöglichkeiten erscheint 
deshalb nicht nur möglich, sondern aus didaktischer Perspektive geradezu 
willkommen. Auch die optimale Nutzung der maximalen Bildschirmgröße für 
ein funktional sinnvolles Nebeneinander von Primärinhalten (im Browser- 
Hauptfenster vs. in temporär eingeblendeten Modalfenstern), Metadaten 
(Autor, Änderungsdatum, Zitation, Verschlagwortung, Weiterführendes etc.) 
und Navigationshilfen (hypertextuelle Verlinkungen, hierarchische Über- 
sichten, Objekt- und Schlagwortlisten, Volltext- und Schlagwortsuchen) galt 
es auszuloten. Dabei wurde die grundsätzlich bewährte Ausrichtung - 
Beschränkung auf das Wesentliche, gutes Webdesign ist einfaches Webdesign — 
kombiniert mit der Öffnung für Neuerungen, insbesondere bei der Visualisie- 
rung von Strukturen und Querverweisen. 
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Neben visuell beförderten stehen auch sprachtechnologisch innovative 
Benutzungszugänge auf der Agenda der grammatischen IDS-Angebote. Eine 
zukünftig zentrale Strategie besteht dabei in der sogenannten „beispielbasierten 
Abfrage“ (example-based querying). Dieses von Augustinus, Vandeghinste & 
Vanallemeersch (2016) für annotierte Baumbanken erprobte Suchverfahren er- 
laubt den gezielten Zugriff auf linguistisch klassifizierte Informationseinheiten 
ohne zeitintensives Ausfüllen spezialisierter Suchformulare. Darüber hinaus 
kann es in Situationen zum Einsatz kommen, in denen Anwender und Anwen- 
derinnen aufgrund terminologischer Unsicherheiten das grammatische Phäno- 
men, nach dem sie suchen, nicht zweifelsfrei benennen können. Ein gleicher- 
maßen regelbasierter wie maschinell lernfähiger Algorithmus analysiert in 
diesen Fällen vom Anwender eingegebene Beispiele aus der Alltagssprache 
(Beispiel: „Anfang diesen Jahres oder Ende dieses Jahres?“) und liefert - unter 
Rückgriff auf eine morphosyntaktisch annotierte Belegdatenbank sowie eine 
feingranulare terminologische Systematik (beide werden weiter unten noch 
angesprochen) — Informationseinheiten mit syntaktisch ähnlichen Beispiel- 
sätzen bzw. dazu einschlägigen Schlagwörtern (zum genannten Beispiel etwa 
„Genitiv“ und „Demonstrativ-Artikel“). 


5.2 Inhaltliche Integration und Erweiterung 


Popularität und Akzeptanz der grammatischen Online-Systeme führten über die 

Jahre zu einem steten Wachstum der in Grammis und ProGr@mm aufgenom- 

menen thematischen Module. Hinzu kamen eigenständige Portale, die phäno- 

menspezifische Forschungsdaten und deren wissenschaftliche Interpretation 
bündeln, beispielsweise in Form des digitalen Valenzwörterbuchs E-VALBU 

(Schneider 2008) oder der Genitivdatenbank GenitivDB (Schneider 2014; 

Hansen-Morath, Konopka & Schneider 2016). Diese Verteilung auf mehrere Platt- 

formen erschwerte zunehmend das gezielte Auffinden der insgesamt für eine 

Fragestellung relevanten Informationseinheiten, ebenso wie die informatische 

Pflege der zugrunde liegenden Autorenumgebungen. 

Seit 2018 bündelt das neue Grammis sämtliche grammatischen Online- 
Inhalte des IDS unter einer einheitlichen, übersichtlichen Oberfläche (vgl. 
Abb. 12.2). Wesentlich ist eine inhaltlich und klassifikatorisch motivierte Drei- 
teilung in folgende Hauptbereiche: 

— Unter der Rubrik Forschung finden sich die Ergebnisse aktueller und ab- 
geschlossener grammatischer Forschungsprojekte des Instituts für Deut- 
sche Sprache, die sich explizit an ein linguistisch ausgebildetes Fach- 
publikum wenden. Hierzu zählen die ehemals zentrale Systematische 
Grammatik, die bereits erwähnte Korpusgestützte Grammatik, die sich der 
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Abb. 12.2: Einstiegsseite und Hauptbereiche. 


Erforschung grammatischer Variation im standardsprachlichen und stan- 
dardnahen Deutsch widmet, sowie neuere Module etwa zu den Bereichen 
Kontrastive Grammatik und Wortphonologie. Abgerundet wird die Rubrik 
von einer onomasiologisch aufgebauten grammatischen Terminologie- 
komponente. 

- Die Rubrik Grundwissen versammelt die ursprünglich in ProGr@mm ent- 
haltenen didaktisch aufbereiteten Module, namentlich das Grammatische 
Grundwissen sowie die im Projekt EuroGr@mm erarbeitete Kontrastive 
Sicht. Darüber hinaus fallen in diese Rubrik die ebenfalls an eine breitere 
Öffentlichkeit gerichtete Grammatik in Fragen und Antworten sowie das 
offizielle Regelwerk zur deutschen Rechtschreibung. 

- Die Rubrik Ressourcen schließlich integriert digitale Einzelwörterbücher, 
thematisch motivierte Bibliografien und phänomenspezifische Daten- 
banken mit speziellen Suchhilfen (etwa GenitivDB für die Genitivforschung 
oder ein mit morphologischen und phonologischen Metadaten angerei- 
cherter Grundwortschatz für den Rechtschreibunterricht). 


Sämtliche Rubriken werden kontinuierlich gepflegt und ausgebaut. Dabei er- 
geben sich immer wieder Situationen, in denen es nicht mit einer reinen Sub- 
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summierung existierender digitaler Inhalte unter einer neuen einheitlichen 
Oberflache getan ist, sondern in denen inhaltliche Arbeit notwendig wird. Als 
Beispiel sei die Zusammenfiihrung der tiber die Jahre gewachsenen Konnektoren- 
Ressourcen genannt: Das ehemals eigenständige Wörterbuch der Konnektoren 
lieferte grammatisch relevante Informationen zu Konnektoren wie aber, weil, 
wohlgemerkt, sogar oder geschweige denn, basierend auf den Ergebnissen des 
ersten Teilprojekts des Handbuchs der deutschen Konnektoren (Pasch et al. 
2003; HDK-1). Die ehemals in die Systematische Grammatik integrierte Daten- 
bank der deutschen Konnektoren versammelte Informationen zu allen Konnek- 
toren, die im Registerteil von des zweiten Teilprojekts HDK-2 (Breindl, 
Volodina & Waßner 2014) aufgelistet sind. Diese galt es inhaltlich abzugleichen 
und in einer einheitlichen Systematik zu verorten. Darüber hinaus wurden Bei- 
spiele und korpusbasierte Belege ergänzt, so dass nunmehr alle syntaktischen 
und semantischen Varianten umfassend illustriert sind. 


5.3 Terminologische Aspekte 


Bereits die frühesten Grammis-Implementierungen hatten mit terminologischer 
Varianz umzugehen. Einerseits gegründet auf den Arbeiten und Festlegungen 
der Grammatik der deutschen Sprache (Zifonun et al. 1997), verfolgte das 
Autorenteam andererseits von Anfang an das Ziel, in die hypermediale Über- 
arbeitung auch neuere Erkenntnisse und methodische Weiterentwicklungen 
einfließen zu lassen. Spätestens mit der expliziten Öffnung für ein breiteres 
sprachinteressiertes Nutzerspektrum kommt der Umstand hinzu, dass nicht 
nur den einzelnen Grammis-/ProGr@mm-Modulen unterschiedliche theore- 
tische Klassifizierungen zugrunde liegen, sondern insbesondere auf Leserseite 
mit einem uneinheitlichen Vorwissen - sprich: Terminologieinventar — gerech- 
net werden muss. Die internationale (Teil-)Ausrichtung sowie eine fortlaufende 
Einbeziehung zusätzlicher Schwerpunktthemen und wissenschaftlicher Auto- 
rinnen und Autoren verstärken diesen Aspekt kontinuierlich. 

Zielsetzung des grammatischen Informationssystems bleibt die innovative 
Präsentation potenziell heterogener multimedialer Sprachressourcen und 
Forschungsergebnisse. Dabei gilt es, ein breites Nutzerspektrum vom interes- 
sierten Laien über professionell mit Sprache befasste Berufsgruppen bis hin zu 
Sprachwissenschaftlern und -wissenschaftlerinnen unterschiedlicher theore- 
tischer Ausrichtung abzudecken. Vor diesem Hintergrund lautet die Kernfrage: 
Wie findet die oder der Informationssuchende - im Einzelfall nicht nur mit 
unterschiedlich stark ausgeprägter linguistischer Bildung, sondern insbeson- 
dere mit theorieabhängig variablem terminologischem Vokabular - die für sie 
oder ihn passende Stecknadel im Heuhaufen fachwissenschaftlicher Inhalte? 
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Abb. 12.3: Schlagwortwolke als modulübergreifende Navigationshilfe. 


Eine zentrale Bedeutung im gegenwärtigen wie zukünftigen Grammis-Portal 
kommt deshalb einer konsistenten, terminologieübergreifenden Vernetzung von 
inhaltlichen Modulen zu, die aus grammatiktheoretischer Perspektive nicht 
durchgehend und in allen Einzelheiten einheitlich ausgerichtet sein können. Um 
eine automatisierbare Bezugnahme zwischen mit unterschiedlichem termino- 
logischem Inventar formulierten, aber das gleiche sprachliche Phänomen be- 
schreibenden Inhalten zu befördern, bildet eine onomasiologisch konzipierte 
Terminologiedatenbank das Rückgrat der Grammis-Recherche (Sejane 2010; 
Suchowolec, Lang & Schneider 2016; Suchowolec et al. 2017). Unter Rückgriff 
auf aus Ontologien und Thesauri bekannten Äquivalenz-, Assoziations- und 
hierarchischen Relationen vermittelt diese in terminologischen Zweifelsfällen 
zwischen System und Nutzer. Neben einer konsistenten Makrostruktur (Vernet- 
zung von Begriffen) des Fachvokabulars enthält die Terminologiedatenbank 
auch eine Vielzahl von erklärenden Kurzartikeln zu relevanten grammatischen 
Termini in einer normierten Mikrostruktur (Kurzdefinition, Erläuterungstext, 
Bestand, Beispiele/Korpusbelege, weiterführende Hinweise) und integriert bzw. 
erweitert zu diesem Zweck das in Abschnitt 4 beschriebene Terminologische 
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Wörterbuch. Außerdem definiert sie den Gesamtbestand aller für die Verschlag- 
wortung von Grammis-Informationseinheiten einsetzbaren Termini. 

Abbildung 12.3 illustriert einen Anwendungsfall dieser (manuellen oder 
maschinell unterstützten) Verschlagwortung für die grafisch unterstützte Navi- 
gation. Eine modulübergreifende Schlagwortwolke - ein Hybrid aus Tag Cloud 
und Pie Chart - visualisiert die Verteilung aller textspezifischen Schlagwörter 
über die einzelnen Grammis-Module. Dabei korrespondieren die Schriftfarben 
mit den Modulen und die Schriftgröße mit der Häufigkeit. Per Mausklick lassen 
sich anschließend die mit dem jeweiligen Schlagwort verknüpften Informa- 
tionseinheiten aufrufen. Alternativ steht eine alphabetisch geordnete Schlag- 
wortliste zur Verfügung. 


5.4 Qualitätssicherung für Sprachbelege 


Der Rückgriff auf authentische Sprachbelege ist für die linguistische Forschung 
wie für die Vermittlung von Forschungsergebnissen wichtig und bildet einen 
entsprechend wesentlichen Bestandteil der grammatischen Informations- 
systeme. Allerdings kann er im Rahmen der Vermittlung bzw. Illustration zu 
Fehlgriffen führen: Informationssuchende stoßen erfahrungsgemäß immer 
wieder auf Beispiele, die sie nicht auf Anhieb verstehen, und zwar entweder 
wegen ihrer Länge oder Komplexität — verglichen mit der zu illustrierenden 
Form/Funktion — oder weil sie zu sehr kontextuell angebunden sind und ein 
Welt- und Fachwissen voraussetzen, das nicht jeder Nutzer oder jede Nutzerin 
haben kann. Dieses Problem besteht unabhängig von der sonstigen Rolle des 
Korpus: Ob es darüber hinaus als empirische Datenbasis für statistische Ana- 
lysen dient oder „nur“ eine Kontroll-Funktion haben soll — die ausgewählten 
Belege, die in der Online-Darstellung die grammatischen Strukturen illustrie- 
ren sollen, müssen relativ einfach und gleich einleuchtend, d.h. leicht zu inter- 
pretieren sein. 

Diesem Umstand wird sich in Grammis zukünftig eine spezielle Beleg- 
datenbank widmen. Konzipiert sowohl aus der Forschersicht (die in den meisten 
Fällen authentisches Sprachmaterial variabler Komplexität präferiert, um den 
Gegenstandsbereich angemessen beurteilen zu können) als auch aus der Per- 
spektive von Sprachlernenden (die in erster Linie an didaktisch sinnvollen 
Beispielen interessiert sind, welche im Einzelfall auch konstruiert sein dürfen), 
integriert sie beide genannten Belegtypen. Einen wesentlichen Grundstock be- 
zieht sie dabei aus den in Grammis bereits annotierten Beispielsätzen. Darüber 
hinaus fließen kontinuierlich Belege ein, die im Rahmen flankierender Projekte 
und Studien zu speziellen Fragestellungen erarbeitet werden. 
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Die Belegdatenbank kombiniert authentische und konstruierte Beispiele 
mit diversen Metadaten: Neben morphosyntaktischen und ggf. weiteren Anno- 
tationen zählen hierzu in erster Linie eine detaillierte linguistisch motivierte 
Verschlagwortung sowie didaktisch aussagekräftige Klassifizierungen. Im 
Ergebnis soll die Datenbank die Grammis-Autoren und -Autorinnen bei der 
Auswahl stimmiger Belege unterstützen und für die Grammis-Nutzerinnen 
und -Nutzern die Navigation zu inhaltlich passenden Informationseinheiten 
befördern, etwa vermittels der weiter oben angesprochenen „beispielbasierten 
Abfrage“. 


5.5 Vermittlung in den Kontrastsprachen 


Abschließend soll noch ein Aspekt erwähnt werden, der zwar kritisch angegan- 
gen wird, aber dennoch grundsätzlich ohne weiteres verbessert werden kann: 
Es handelt sich hier um die Erweiterung und „Fruchtbarmachung“ der aus der 
kontrastiven Perspektive geleisteten Arbeit. Unsere Erfahrung zeigt, dass die 
Lernenden bzw. Studierenden aus der jeweiligen Muttersprache Schwierig- 
keiten haben, die Module auf Deutsch zu verstehen. Dies hängt zum Teil mit 
der entsprechenden Lehrtradition zusammen: Wenn Grammatik nur in der 
Muttersprache (d.h. nicht auf Deutsch) gelehrt wird, wird der Gebrauch von 
Deutsch als Metasprache als zusätzliches Hindernis empfunden. Dies schränkt 
den Einsatz der Propädeutischen Grammatik ProGr@mm im Grundstudium ein 
sowie auch den Verweis auf andere Grammis-Module bei Fortgeschrittenen. 
Deshalb hier zum Abschluss die Gretchen-Frage: Wäre es nicht relevant und 
wünschenswert, auf Basis des im Kontrastiv-Modul erarbeiteten Modells kon- 
trastive — oder zumindest kontrastiv angelegte - Grammatiken des Deutschen 
in den jeweiligen Kontrastsprachen zu erstellen? 

Wie dem auch sei: Der Blick von außen auf die deutsche Sprache, der Be- 
darf an einer umfassenden, erklärenden Beschreibung der grammatischen 
Strukturen des Deutschen, die Wirkung des IDS nach außen und nicht zuletzt 
der digitale Wandel in den Wissenschaften sind wichtige Pfeiler der hier vor- 
gestellten Online-Angebote. Ihre Erhaltung, Umgestaltung und Weiterent- 
wicklung sind eine anspruchsvolle Aufgabe, die - nicht nur, aber eben auch 
aus Perspektive der Germanistik im Ausland - ernst genommen werden muss! 
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IV Annotation und Modellierung 


C. M. Sperberg-McQueen 
13 Kernideen der deskriptiven 
Textauszeichnung 


Abstract: Die weitverbreiteten Datenformate SGML und XML wurden als Trager 
fiir deskriptive Textauszeichnung entwickelt. XML bietet eine sehr einfache 
Syntax, eine flexible Wahl an Datenmodellen, sowie die Méglichkeit, ein eigenes 
Auszeichnungssystem zu definieren und mechanisch nach Fehlern zu über- 
prüfen. Die Freiheit, selbst das Datenformat zu bestimmen, gibt dem Anwender 
von XML sowohl die Möglichkeit, Textphänomene mit Auszeichnungen festzu- 
halten, die keine kommerzielle Software vordefiniert, als auch eine Eigen- 
verantwortung für die eigenen Daten. Beides ist für die wissenschaftliche 
Arbeit mit Texten unerlässlich. 


Keywords: Annotation, Deskriptive Textauszeichnung, Sprachkorpora, XML 


1 Einleitung 


Vor etwa dreißig Jahren (am 15. Oktober 1986) wurde von der internationalen 
Organisation der Standardisierung ISO eine Norm verabschiedet, mit Namen 
ISO 8879: Information processing — Text and office systems — Standard Gener- 
alized Markup Language (SGML), zu Deutsch Informationsverarbeitung - Büro- 
systeme - Standardauszeichungssprache (SGML). 

SGML will eine technische Basis fiir die deskriptive Textauszeichnung 
(descriptive markup) liefern; es lohnt sich vielleicht nach dreißig Jahren ein 
Versuch, einige der Kernideen dieses Begriffs zu erläutern und zu würdigen. 
Diese Kernideen helfen, die Zählebigkeit des Begriffs und der ISO-Norm zu 
erklären. 

Wie der Titel der ISO-Norm andeutet, stufte ISO die SGML als Beitrag zur 
Automatisierung der Büroarbeit ein. Aber schon in der Arbeitsgruppe, die diese 
Norm entwickelte, hatte man einen weiteren Einsatz anvisiert, vor allem im 
Verlagswesen und im Druckwesen, vorzugsweise in der technischen Redaktion 
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(technical publishing), die nicht Biicher oder Zeitschriften, sondern Gebrauchs- 
anleitungen, Produkthandbiicher usw. erstellt. 

Heute werden aber SGML und ihre Nachfolgerin XML (Extensible Markup 
Language, 1996 vom World Wide Web Consortium (W3C) verabschiedet) sehr 
viel breiter verwendet. In Verlagen und in der technischen Redaktion werden 
immer noch SGML und XML angewandt, sie werden aber auch fiir Grafik 
(Scalable Vector Graphics (SVG) ebenfalls vom W3C definiert) und Bibliotheks- 
daten (bei der Digitalisierung von Texten und auch beim Austausch von Meta- 
daten) gebraucht. Datenbanksysteme setzen XML für Datenaustauch ein und 
haben auch inzwischen XML-orientierte Abfragesprachen, entweder eine 
Erweiterung zu SQL namens SQL-XML oder eine eigene XML-orientierte 
Sprache, XQuery (W3C). Sogar bei Tankstellen wendet man XML an: Die Tank- 
säule und die Kasse senden sich gegenseitig Messages, die nicht immer aber 
meistens (so wird von Fachleuten berichtet) mit XML kodiert sind. In der Linguis- 
tik hat sich die strukturierte Auszeichnung mit SGML oder XML zum de facto- 
Standard für die Verarbeitung natürlichsprachlicher Ressourcen entwickelt. 
Große Textkorpora wie DeReKo werden in einem XML-Format (s. Lüngen & 
Sperberg-McQueen 2012) verwaltet, multi-dimensionale Annotationen (morpho- 
syntaktisch, semantisch etc.) werden durch Tagger in XML erstellt, selbst 
Schnittstellen zwischen sprachverarbeitenden Programmen werden oft mit 
XML spezifiziert. XML dient als Basis aktueller empirischer und sprachtechno- 
logischer Arbeiten. 

XML ist also praktisch das geworden, was man schon 1996 schlagwortartig 
vorausgesagt hat: ein ASCII für das 21. Jahrhundert. Sie findet fast überall 
Verwendung, wo man überhaupt Informationstechnologie anwendet. Eine 
breite, vollständige Bestandsaufnahme der Anwendungen von SGML, XML 
oder allgemeiner von der deskriptiven Textauszeichnung ist wegen der Breite 
der Anwendungsgebiete hier nicht möglich. Ich beschränke mich darauf, einige 
Kernideen von SGML und XML zu identifizieren. 


2 Deskriptives Markup 


SGML hat drei Wurzeln, denen ich nachgehen möchte: in der Büroautomati- 
sierung, in der technischen Redaktion und im Lichtsatz. 

Die Vorläufersprache GML (Generalized Markup Language) entstand einem 
IBM-Projekt, in dem man Software für Rechtskanzleien entwickeln wollte. Um 
die in der Kanzlei verfertigen Dokumente zu verwalten, sollte diese Software 
die Möglichkeit bieten, Texte zu verarbeiten und Dokumente auszudrucken. 
Die Dokumente sollten aber auch archiviert und durchsuchbar gemacht wer- 
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den, damit man (etwa bei Anderung der Rechtslage) bequem ausfindig mache 
könnte, welche Auftraggeber von der Änderung betroffen wären. Textverarbei- 
tungssysteme und Wortprozessors existierten schon, wie auch Volltextdaten- 
banken. Aber die Datenformate, die man für die einen einsetzte, hatten mit 
den Datenformaten der anderen nichts gemeinsam. GML ist aus dem Bestreben 
entstanden, diese zwei Anwendungen auf die gleichen Daten zugreifen und 
die gleichen Daten verarbeiten zu lassen. In der Büroautomatisierung suchte 
man also eine anwendungsunabhängige oder wiederverwendbare Dateistruktur. 

In der technischen Redaktion verwaltet man oft eine sehr umfangreiche 
Produktdokumentation mit tausenden oder hunderttausenden von Seiten. Aus 
diesem Material müssen Dokumente oft in verschiedenen Versionen erzeugt 
werden, je nach Modell des Produkts, wobei eine Konsistenzüberprüfung der 
Ausgabe nicht unterbleiben darf. Viele Dokumente, wie z.B. Computerhand- 
bücher, wollen auch mehrfach gestaltet werden: einmal auf Papier (das waren 
noch Zeiten!), aber auch auf Bildschirm. Heutzutage kann man davon aus- 
gehen, dass alles, was man auf Papier darstellen kann, praktisch sehr ähnlich 
auf dem Bildschirm zu bringen ist. In den 1980er Jahren war das aber nicht 
so. Es werden auch ständig neue Versionen der Dokumente verlangt, oft mit 
Textänderungen, aber oft auch ohne jede Änderung des Wortlauts, wenn etwa 
die Firma allen Dokumenten eine neue graphische Gestaltung (ein neues Look) 
geben will. Es kann sein, dass z.B. die Größe, die Schriftart, oder die Posi- 
tionierung der Kapitelüberschriften anders gestaltet wird. Wollte man eine 
solche Änderung manuell durchführen, so müsste man jedes Dokument im 
Editor aufmachen, alle Kapitelüberschriften finden und ändern, und das Doku- 
ment wieder speichern. Die Erfahrung hat gelehrt, dass ein solcher Versuch 
nicht gut endet. Man überspringt das eine oder das andere Dokument; man 
findet nicht alle Kapitelüberschriften, man führt aus Versehen eine falsche 
neue Schriftart ein oder eine globale Änderung trifft auch andere Stellen des 
Texts, die keine Kapitelüberschriften sind und diese neue Gestaltung nicht 
haben sollen. Manuell gelingen solche Massenänderungen der Textgestaltung 
nicht; man muss sie automatisieren können. Das lässt sich am einfachsten 
bewerkstelligen, wenn die Gestaltungsanweisungen für Kapitelüberschriften 
nicht im Dokument mit den Kapitelüberschriften angegeben werden (was auch 
mehrfach redundant ist), sondern nur einmal extern spezifiziert werden. In der 
technischen Redaktion suchte man also die Möglichkeit, Text und Verarbei- 
tungsanweisungen getrennt zu speichern, damit man Letztere unabhängig von 
dem Ersten ändern kann. 

Die Lichtsatzdienstleister hatten ein scheinbar anderes Problem. Jede 
Lichtsatzmaschine hatte derzeit eigene Anweisungskodes, meist sehr hard- 
warespezifisch, sehr hardwarenah. Beim Umgang mit solchen Kodes entstehen 
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leicht Kodierungsfehler. Dass jede Maschine eigene Anweisungen hatte, führte 
zu einem fragmentierten Markt. Dass die Kodierungsfehler so leicht waren, 
führte zu unerwünschten Ausgaben, denn Kodierungsfehler sind bei solchen 
Maschinen manchmal sehr teuer. Die Dienstleister wollten ihre Kundenbasis 
erweitern; die Kunden wollten eine größere Auswahl an Anbietern haben. 
Beide Seiten hatten also ein gemeinsames Interesse an einem größeren Markt. 
Und beide hatten ein gemeinsames Interesse daran, Fehler in der Kodierung 
so früh wie möglich zu entdecken und beseitigen zu können. Im Lichtsatz- 
sektor suchte man also eine Art Hardwareunabhängigkeit und zu gleicher Zeit 
eine Art Lieferantenunabhängigkeit der Daten. 

Man hat sich bald darauf geeinigt, dass für diese drei Probleme eine ge- 
meinsame Lösung zu finden war, und zwar in einem Dateiformat, nicht etwa 
in einer Schnittstelle zwischen Programmen. Der Vorsatz, die Anwendungsun- 
abhängigkeit, die Wiederverwendbarkeit und die Hardwareunabhängigkeit der 
Daten durch ein Datenformat und nicht durch eine Schnittstelle zu gewähr- 
leisten, unterscheidet SGML grundsätzlich von der zeitgenössischen Daten- 
banktheorie, wo man bei der Entwicklung von SQL gerade den entgegen- 
gesetzten Weg gegangen ist. 

Die aus diesen drei Wurzeln entsprossene Lösung heißt generisches Markup 
oder deskriptive Textauszeichnung. Mit Markup oder Textauszeichnung meint 
man Metadaten, die man zur Beschreibung der anvisierten Verarbeitung in 
einen Text einfügt. Markup in diesem allgemeinen Sinn existierte schon im 
Wiegendruckzeitalter, wo man am Rande einer Handschrift einfache Setzer- 
anweisungen eingefügt hat. Im Laufe der Zeit wurde die Druckseitengestaltung 
komplizierter und das Markup routinierter. Man gibt Schriftart, Schriftgröße 
und Satzbreite vor, und man bemüht sich, für Schriftarten mehr oder weniger 
standardisierte Namen einzuführen, wie man auch für Größen- und Breiten- 
anweisungen standardisierte Maßsysteme entwickelt. Wenn man die Anwei- 
sung „Palatino, 10 Punkt, 11 Punkt Durchschuss, Satzspiegel 30 em“ gibt, so 
hat man die Seite mehr oder weniger vollständig beschrieben. Die ersten 
Formatierungsprogramme haben für diese und andere Eigenschaften der Seite 
eigene Kommandos bereitgestellt. 

Deskriptives Markup nennt man Markup, das die Daten beschreibt, anstatt 
einem Programm Anweisungen zu geben. Typischerweise ist deskriptives 
Markup generisch, nicht gerätespezifisch oder anwendungsspezifisch; dekla- 
rativ, statt imperativ zu sein; logisch und nicht formatierungsorientiert. Man 
orientiert sich an dem, was man mehr oder weniger naiv „die logische Struktur 
eines Texts“ nennt. (Naiv deswegen, weil nicht ohne Weiteres anzunehmen ist, 
dass es nur eine logische Struktur gibt, und nicht mehrere.) 

In den 1970er Jahren bildete eine Druckindustriegruppe in den USA namens 
Graphic Communications Association (GCA) eine Arbeitsgruppe namens GenCode 
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Committee. Zur Aufgabe hatte diese Arbeitsgruppe die Formulierung eines 
generischen Kodes fiir den Satz. Das Generische an diesem Kode ware, dass er 
allgemein anwendbare Kommandos definieren sollte, wie etwa ,,Neue Seite!“ 
oder „Neue Schriftart!“, die man einsetzen könnte, statt irgendeine hardware- 
spezifische Escape-Sequenz wie „ESC x 234 y“ schreiben zu müssen. Schon an 
diesem Beispiel wird klar, dass eine generische Kodierung der Typographie 
leichter zu verstehen sein kann, als die maschineneigene Kodierung. 

Diese Arbeitsgruppe von GCA ist bald zu dem Ergebnis gekommen, dass 
ihr Auftrag sinnlos sei, und dass das Grundproblem anders zu lösen sei. Sie 
hat sich geweigert, das ihr aufgetragene Problem auf die ihr vorgeschriebene 
Weise zu lösen, und hat stattdessen ein anderes und wichtigeres Problem 
gelöst. Einen einheitlichen Kode, der für alle und alles funktioniert, gebe es 
nicht und könne es nicht geben. Der Versuch, einen solchen Kode zu schaffen 
wäre also vergebliche Mühe. Jeder vorstellbare Kode reicht vielleicht für die 
eine Anwendung, ist aber für eine andere nicht gut geeignet oder umgekehrt. 
Ein Kode, der für alle Interessierten brauchbar ist, könne man aber nicht 
erreichen. 

Ihre Lösung könnte man eine Flucht in die Metaebene nennen. Statt selbst 
einen Kode, eine Kommandosprache für den Satz zu definieren, hat die Arbeits- 
gruppe einen Metakode, eine Metasprache definiert: eine Sprache zur Definie- 
rung anderer Sprachen. Mit dieser Metasprache sollte jeder seinen eigenen 
Kode definieren können. Statt den Interessierten eine Lösung ihrer Probleme 
zu geben, gab man ihnen die Möglichkeit, sich selbst eine Lösung zu bauen. 

Die Flucht in die Metaebene gelingt nicht immer. Man verliert dabei leicht 
den Bezug auf die konkreten Probleme, die zu lösen sind. In diesem Fall aber 
scheint dies ein erfolgreiches Manöver gewesen zu sein. 

In den Diskussionen um eine solche Metasprache hat sich der Begriff der 
Geräteunabhängigkeit allmählich etwas erweitert. Wenn man einmal gesehen 
hat, dass man „Pagethrow“ schreiben kann, statt einer gerätespezifischen 
Anweisung, so sieht man bald auch ein, dass man ebenso „kursiv“ schreiben 
könnte, um in eine geeignete kursive Schrift zu wechseln, statt genau die neue 
Schriftart mit Namen und Größe und Durchschuss anzugeben. Denn im folgen- 
den Jahr will man vielleicht nicht mehr Palatino sondern Garamond haben; die 
Stellen, die kursiv (oder fett, oder gesperrt) zu setzen sind, bleiben aber die 
gleichen. 

Bald ging man noch weiter. Statt anzugeben, dass gewisse Wortfolgen 
kursiv (bzw. fett oder gesperrt) zu setzen sind, kann man fragen, warum man 
diese Wortfolgen so setzt. Sie sind vielleicht Termini technici oder Schlüssel- 
wörter; sie sind vielleicht Fremdwörter; sie sind vielleicht emphatisch, stark 
betont. Oder sie sind eben Kapitelüberschriften. Wenn man die typographisch 
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auszuzeichnenden Stellen nach Art identifiziert und diese Artangabe von den 
Gestaltungsanweisungen grundsatzlich trennt, dann vermindert man die Redun- 
danz in der Datei (die Gestaltungsanweisungen fiir Kapitalüberschriften werden 
nur einmal angegeben), und es wird leichter, diese Anweisungen zu andern. 

Das Procedere ist das eines Makrosystems: Fiir jede zu unterscheidende 
Gestaltungsart definiert man ein Makro und man schreibt in der Datei nicht die 
Verarbeitungsanweisungen, sondern den Namen des Makros. Sehr früh hatten 
Formatierungsprogramme solche Makros angeboten. Die GenCode Arbeitsgruppe 
hat sich aber nicht damit begniigt, den Einsatz eines Makrosystems zu emp- 
fehlen. Sie haben scheinbar im Zusammenspiel von Makros, Anwendungsun- 
abhängigkeit und Wiederverwendbarkeit eine tiefere Frage gesehen. In der 
Textverarbeitung funktionieren Makrosysteme am besten, wenn man sich nicht 
mehr fragt „Wie soll man diese Daten verarbeiten?“, sondern „Was bedeuten 
diese Daten? Was sind diese Daten? Welche Art von Ding ist das? Was ist sein 
Genus?“ Aus dieser letzten Frage stammt die Benennung generisches Markup: 
Markup, das das Genus einzelner Textstellen angibt. 

Das generische Markup führt unwillkürlich und unaufhaltsam zur Onto- 
logie. 

Und zwar, sowohl im ingenieurtechnischen wie auch im philosophischen 
Sinne. Will man in einem Datenformat alle möglichen Applikationen, alle mög- 
lichen Softwares unterstützen (wie in der Rechtskanzlei sowohl die Dokument- 
erzeugung wie auch die Archivierung und die Volltextsuche), dann müssen 
zwei Strukturen X und Y in der Datei immer dann eindeutig unterscheidbar 
sein, wenn wenigstens eine der Applikationen diese Unterscheidung braucht, 
weil sie X und Y verschieden behandeln will. Die Strukturen (oder Objekte) X 
und Y dürfen das gleiche Genus haben, wenn jede zu unterstützende Applika- 
tion (im Grenzfall: jede denkbare Applikation) sie beide gleich behandeln soll. 
Das trifft dann zu wenn X und Y wesentlich gleicher Art sind, d.h. das gleiche 
Genus haben. Eine Folge dieser Beobachtung ist, dass jede Makrosammlung 
(in XML: jede Definition eines Dokumenttyps) explizit oder implizit eine Onto- 
logie zur Schau stellt und dass ein Kode für die Dokumentverarbeitung eine 
Weltanschauung ausdrückt. 

Dieser Schluss ist historisch und soziologisch gesehen sehr wichtig. Dass 
man selber als Benutzer, als Anwender, als Dateneigner den Kode definieren 
darf und muss, das bedeutet zuerst eine Art Selbstbestimmung wie man sie bei 
den Computern nicht immer so gewohnt war. Diese Selbstbestimmung bedeu- 
tet eine gewisse Freiheit, den Softwareentwicklern und Softwarelieferanten ge- 
genüber. Die Selbstbestimmung bedeutet auch eine gewisse Verantwortung, 
denn man muss für sich selbst entscheiden, was die wesentlichen Züge der 
zu digitalisierenden Daten sind, welche Unterschiede als wesentlich zu gelten 
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haben, und welche als nichtwesentlich. Kant hat einmal geschrieben: ,,Auf- 
klärung ist der Ausgang des Menschen aus seiner selbst verschulden Unmün- 
digkeit.“ (Kant 1784) Und ein Dateneigner, der die Méglichkeit bekommt, selbst 
zu bestimmen, was in den Daten wesentlich ist, fiihlt sich oft von einer 
Unmiindigkeit befreit, denn es bestimmen nicht mehr unsichtbare Software- 
entwickler was dem Benutzer in einem Text wichtig zu sein hat. Viele SGML- 
und XML-Anwender schatzen diese Selbstbestimmung sehr und wehren sich 
gegen jede Alternative, die wieder in die Unmündigkeit zu führen scheint. 


3 Zentrale Konzepte von SGML and XML 


Die Selbstbestimmung, so wichtig sie auch ist, ist nicht der einzige Grund, 

warum nach dreißig Jahren SGML und XML noch Anwendung finden. Einige 

technischen Eigenschaften von SGML und XML spielen auch eine Rolle. 
Der Kern von SGML und XML besteht aus drei Ideen: 

1. Die Syntax, die Definition der Zeichenfolgen, die für diese Formate wohl- 
bzw. nicht wohlgeformt sind. 

2. Die Datenstrukturen, die mehr oder weniger implizit oder explizit in dieser 
Zeichenfolge immanent sind. 

3. Die Möglichkeit, die Gültigkeit einer Zeichenfolge nachzuprüfen mittels 
einer Dokumentgrammatik. 


Diese drei greifen ineinander ein und stärken sich gegenseitig. Sie bilden eine 
Art Circulus, aber keinen Circulus vitiosus, sondern ein Circulus virtuosus. 


4 Syntax 


Die Syntax von XML lässt sich sehr schnell beschreiben: Es wird alles explizit 
abgegrenzt. 

Es soll so einfach wie möglich sein, mit einfachen Mitteln eine XML-Datei 
zu verarbeiten; bei der Entwicklung von XML hat man oft den desperate Perl 
hacker (den/die verzweifelte Perl-Programmierer/-in) als Zielpublikum bespro- 
chen: Es sollte ihm bzw. ihr möglich sein, die eigenen Dateien ohne großen 
Aufwand zu verarbeiten. Die explizite Abgrenzung aller XML-Strukturen im 
Text hilft dabei: Man kann sowohl den Anfang wie auch das Ende einer Struk- 
tur mit einfachen regulären Ausdrücken finden. 

Jedes SGML- oder XML-Dokument besteht aus Elementen. Jedes Element 
wird durch Etiketten oder Tags von anderen Elementen abgegrenzt. Etiketten 
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werden gegen anderen Inhalt durch spitze Klammer abgegrenzt. Attributwerte, 
die in einem Starttag erscheinen, werden durch Anfiihrungszeichen abgegrenzt. 

Die Syntax von XML könnte ohne Informationsverlust wesentlich weniger 
langatmig und explizit sein: Anführungszeichen sind nur dann fiir Attribut- 
werte dringend notwendig, wenn die Zeichenfolge ohne sie zweideutig ware, 
oder schwierig zu parsen. Ende-Tags für Elemente könnte man oft ohne Infor- 
mationsverlust auslassen: Da Elemente nisten, genügt der Ende-Tag eines äu- 
ßeren Elements, das Ende aller noch nicht beendeten Elemente anzuzeigen, 
die innerhalb des äußeren Elements angefangen haben. SGML macht von 
solchen Möglichkeiten viel Gebrauch, XML zum großen Teil deswegen nicht, 
weil die Erfahrung gelehrt hat, dass solche Raffiniertheiten die einfache Text- 
verarbeitung unverhältnismäßig erschweren, die Syntax komplizieren und die 
Wahrscheinlichkeit einer korrekten Implementierung vermindern (wie man am 
Beispiel von Mozilla und Internet Explorer leicht sieht: Jeder Implementie- 
rungsfehler der einen Software wurde schnell von der anderen in einer Ab- 
wärtsspirale nachgeahmt; die Syntax, die sie am Ende implementiert haben, 
hatte nur eine entfernte Ähnlichkeit mit der von der HTML-Norm vorgeschrie- 
benen). 

Als Beispiel der Syntax von XML diene hier ein Lied von Walther von der 
Vogelweide (Kuhn 1965, 52): 


<Kanzone> 
<Strophe> 
<Aufgesang> 
<Stollen> 
<Z>“Unter den linden</Z> 
<Z>an der heide,</Z> 
<Z>dä unser zweier bette was,</Z> 
</Stollen> 
<Stollen> 
<Z>dä mugt ir vinden</Z> 
<Z>schone beide</Z> 
<Z>gebrochen bluomen unde gras.</Z> 
</Stollen> 
</Auf gesang> 
<Abgesang> 
<Z>vor dem walde in einem tal,</Z> 
<Z>tandaradei</Z> 
<Z>schöne sanc diu nahtegal.</Z> 
</Abgesang> 
</Strophe> 
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<Strophe> 
<Aufgesang> 
<Stollen> 
<Z>Ich kam gegangen</Z> 
<Z>zuo der ouwe:</Z> 
<Z>dö was min friedel komen &.</Z> 
</Stollen> 
<Stollen> 
<Z>dä wart ich empfangen</Z> 
<Z>hére frouwe,</Z> 
<Z>daz ich bin s&lic iemer mé.</Z> 
</Stollen> 
</Aufgesang> 
<Abgesang> 
<Z>kuster mich? wol tüsentstunt:</Z> 
<Z>tandaradei , </Z> 
<Z>seht wie röt mir ist der munt.</Z> 
</Abgesang> 
</Strophe> 
</Kanzone> 


Hier kann man in den Tags sehen, was der Kodierer als das Wesentliche im 
Gedicht angesehen hat. Das Lied ist eine Kanzone; der Anfang wird mit dem 
Anfangstag <Kanzone> angezeigt, das Ende mit dem Ende-Tag </Kanzone>. 
Eine Kanzone besteht aus Strophen (hier durch <Strophe> ... </Strophe> 
markiert). In der Kanzonenform besteht eine Strophe aus Teilen, die man später 
Aufgesang und Abgesang genannt hat. (Diese Termini kannten Walther und sei- 
ne Zeitgenossen soweit wir wissen nicht, sie stammen von den Meistersängern.) 
Jeder Aufgesang besteht aus zwei Stollen, die aus Zeilen bestehen, wie auch 
der Abgesang. Alle diese Strukturen werden explizit mit XML-Elementen model- 
liert und können leicht von einem Programm bearbeitet werden. Es wäre mit 
einer Gedichtsammlung in dieser Form z. B. leicht, nachzuprüfen, ob der Wort- 
schatz oder das Reiminventar des Aufgesangs von dem Wortschatz und dem 
Reiminventar des Abgesangs bei Walther oder allgemein unterscheidet. 

Diese Begriffe - Strophe, Aufgesang, Stollen - sind für das Verständnis der 
Liedform wesentlich, aber man kann nicht erwarten, sie bei einem kommer- 
ziellen Wortprozessor wie Microsoft Word vordefiniert zu finden. Ähnliches gilt 
in jedem Bereich, wo man sich intensiv mit Texten befasst: Wichtige fachspe- 
zifische Begriffe lassen sich erst mit deskriptivem Markup im Text markieren. 
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5 Datenmodelle 


Die zweite Kernidee von SGML und XML sind die Datenmodelle. Streng genom- 
men definieren die SGML-Norm und die XML-Spezifikation nur die Menge der 
konformen Zeichenfolgen; sie bieten keine explizite Beschreibung eines Daten- 
modells. Das steht in einem starken Kontrast zu der Entwicklung der Daten- 
banktheorie, die sowohl ein Datenmodell explizit definiert wie auch die Schnitt- 
stelle, durch die ein Programmierer modellgemäß auf die Daten zugreifen kann. 
Man hat oft genug das Fehlen eines Modells bei XML als Mangel betrachtet. 

Ein explizites Modell ist wichtig, wenn man eine Schnittstelle definiert. 
XML und SGML wollen aber keine Schnittstellen definieren: Sie definieren ein 
Datenformat. Implizit darf man verschiedene Modelle definieren und auf dieses 
Format anwenden. 

Als Zeichenfolge: SGML- und XML-Dokumente werden als Zeichenfolgen 
definiert: man kann also jedes Dokument als Zeichenfolge auffassen. Jede Soft- 
ware, die Daten als Zeichenfolge modelliert, kann erfolgreich auf SGML- und 
XML-Dateien verwendet werden. Das erlaubt uns, SGML- und XML-Dateien mit 
dem systemüblichen Kopierprogramm zu kopieren; man bedarf nicht (wie bei 
vielen relationellen Datenbanken) eines modellspezifischen Kopierkommandos. 

Als reguläre Abwechslung von Markup und Inhalt: Die Zeichenfolge einer 
SGML- oder XML-Datei wird durch eine Grammatik definiert, die zwischen Zei- 
chendaten (Dokumentinhalt) und Markup (Tags u.a.m.) unterscheidet. Man 
kann demnach die Zeichenfolge als eine Abwechslung zwischen Zeichendaten 
und Markup betrachten und verarbeiten. Tags lassen sich leicht mit regulären 
Ausdrücken erkennen. 

Als Baum: Aus der Verschachtelung der Elemente ergibt sich, dass SGML- 
und XML-Dokumente leicht mit einer Baumstruktur modelliert werden können. 
Einen Teil der Baumstruktur des Waltherlieds sieht man in Abbildung 13.1. 

Als gerichteter Graph: Mithilfe der Document Type Definition (s. weiter un- 
ten) kann man bestimmte Attributwerte als Zeiger definieren, und so von einem 
XML-Element auf ein anderes verweisen. Wenn man diese Verweise in Betracht 
zieht, dann hat man mit keinem Baum mehr zu tun, sondern mit einem gerich- 
teten Graph. Wenn man die oben gezeigte Baumstruktur um Verweise erwei- 
tert, die Reimpaare verbinden, erhält man den Graph in Abbildung 13.2. 

Als anwendungsspezifische Datenstruktur: Ein Programm, das eine XML- 
Datei verarbeitet, kann und darf sich eine eigene Datenstruktur nach Belieben 
aus den Informationen der Datei bauen. Allgemeiner als ein gerichteter Graph 
wird diese Struktur nicht sein, aber man ist nicht daran gebunden, nur die im 
XML-Markup explizit angegebene Strukturen in Betracht zu ziehen. Für viele 
Anwendungen genügen aber die oben aufgeführten Datenstrukturen und man 
kann sich den Bau einer eigenen Datenstruktur ersparen. 
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6 Dokumentgrammatik 


Die dritte Kernidee von SGML und XML ist die Dokumentgrammatik. 

Was man als Baum betrachten kann, kann man auch als Syntaxbaum 
betrachten. Und ein Syntaxbaum wird von einer Grammatik erzeugt. 

SGML und XML erlauben dem Anwender nicht nur, eigene Elementtypen 
zu gebrauchen, sondern auch die wechselseitigen Beziehungen der Element- 
typen. Als Beispiel diene eine Dokumentgrammatik fiir das oben gezeigte Lied 
Walthers. 


<!ELEMENT Kanzone (Strophet+)> 

<!ELEMENT Strophe (Aufgesang, Abgesang)> 
<!ELEMENT Aufgesang (Stollen, Stollen)> 
<!ELEMENT Stollen (Z+)> 

<!ELEMENT Abgesang (Z+)> 

<!ELEMENT Z (#PCDATA)> 


Diese Elementvereinbarungen schreiben vor, welche Elementtypen wo erschei- 
nen diirfen. Ein Element Kanzone besteht aus einer Strophe oder aus mehreren 
Strophen. Das Element Strophe besteht aus Aufgesang und Abgesang, beides 
obligatorisch. Ein Aufgesang besteht aus zwei Stollen. Ein Stollen besteht aus 
Zeilen (Z), was auch auf den Abgesang zutrifft. Und eine Zeile (ein Element 
vom Typ Z) besteht aus einer Zeichenfolge (#PCDATA). 

Man sieht, dass es möglich ist, mittels dieser Dokumentgrammatik einen 
großen Teil der Definition der Kanzonenform festzuhalten, wie man auch einen 
großen Teil der Syntax einer Programmiersprache mittels einer kontextfreien 
Grammatik festhalten kann. In den meisten Programmiersprachen gibt es aber 
Vorschriften, die man in einer kontextfreien Grammatik nicht beschreiben 
kann; sie überschreiten die Aussagekraft des Formalismus. So auch hier: Die 
Dokumentgrammatiken von SGML sind im Grunde leicht eingeschränkte kon- 
textfreie Grammatiken. Es ist zum Beispiel nicht möglich, in einer Dokument- 
typdefinition vorzuschreiben, dass die zwei Stollen die gleiche Länge haben 
müssen; die Länge eines Stollens wird nicht vorgeschrieben, aber die zwei Stol- 
len müssen die gleiche Länge haben. Und der Abgesang muss länger als ein 
Stollen sein, aber kürzer als der Aufgesang. Diese Einschränkungen sind mit 
den Dokumenttypdefinitionen (DTDs) von SGML und XML nicht auszudrücken. 
(Es gibt inzwischen aber andere Schemasprachen, die es erlauben, diese Bedin- 
gungen zu formulieren; dass auch sie nicht alle denkbaren Bedingungen berech- 
nen können, folgt aus den Arbeiten Gödels und Turings.) 
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Wie jede Grammatik kann eine Dokumentgrammatik eng oder breit ge- 
schrieben werden, kann deskriptiv eine bereits existierende Menge von Doku- 
menten beschreiben oder praskriptiv vorschreiben, wie eine gewisse Art von 
Dokumenten zu strukturieren sei. In vielen Wörterbuchverlagen möchte man 
eine rein präskriptive Grammatik für die Wörterbucheinträge haben: Die Ein- 
träge haben eine komplexe Struktur, und es geschieht leicht, dass man aus 
Versehen den eigenen Strukturregeln nicht folgt. Da eine Dokumentgrammatik 
eine rein automatische Überprüfung der Struktur ermöglicht, kann man mit 
einer präskriptiven Grammatik eine weit höhere Konsistenz der Einträge errei- 
chen. Aber diese präskriptive, vorschreibende Grammatik kann man praktisch 
auf die bereits erschienenen Wörterbücher nie anwenden, denn es gibt in 
jedem veröffentlichten Wörterbuch Strukturvarianten, die der Verlag als Fehler 
betrachtet. Die Möglichkeit, in Zukunft solche Fehler zu verhindern, macht 
SGML und XML für viele praktische Anwendungen allen Alternativen kon- 
kurrenzlos überlegen. 


7 Schlusswort 


Diese drei Ideen, und ihre Verwirklichung in SGML und XML, wurden von vielen 
Anwendern als Revolution empfunden. Dass Dokumente eine Struktur haben, 
das weiß jeder, der mit Dokumenten täglich arbeitet. Dass diese Dokument- 
struktur ohne großen Aufwand der Anwendungssoftware zugänglich gemacht 
werden soll, leuchtet sofort ein. Und dass der Benutzer selbst bestimmen kann, 
wie man die Elemente benennt und wie die Strukturen aufzubauen sind, gibt 
dem Benutzer von SGML und XML eine Art Freiheit, die man nur mit Adam im 
Garten Eden vergleichen kann, als Adam und Eva alle Tiere der Welt nach ihrer 
Art benannt haben. Man definiert sich eine Welt damit. 

Die Einführung der kontextfreien Grammatik in Backus/Naur Form (BNF) 
bei der Definition von Algol 60 gilt als Wendepunkt in der Geschichte der Pro- 
grammiersprachen. Sie hat ein bis dahin nicht erreichbares Niveau an Forma- 
lität und Eindeutigkeit bei der Syntaxdefinition der Programmiersprachen 
möglich gemacht. Die Welt der Programmiersprachen ist eine andere gewor- 
den. Die Welt der Dokumentverarbeitung ist im Vergleich vielleicht nur eine 
kleine Welt, aber diese Welt ist auch infolge der Kernideen von SGML und XML 
eine andere und bessere geworden. 
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14 Internetbasierte Kommunikation und 
Korpuslinguistik: Repräsentation 
basaler Interaktionsformate in TEI 


Abstract: Der Beitrag beschreibt ein Basisschema für die Repräsentation von 
Korpora internetbasierter Kommunikation auf der Grundlage der Guidelines 
for Electronic Text Encoding and Interchange“ der Text Encoding Initiative (TEI). 
Ausgehend von einem Überblick über die gegenwärtige Korpuslandschaft 
wird gezeigt, dass sich in der Kommunikation im Netz trotz des beständigen 
technologischen Wandels stabile Interaktionsformate etabliert haben. Eine stan- 
dardisierte Repräsentation solcher Formate bildet eine wichtige Voraussetzung 
für die Herstellung einer sprachen- wie domänenübergreifenden Interoperabi- 
lität von Korpora und leistet einen Beitrag zum Aufbau der Sprachressourcen- 
Infrastruktur der Zukunft. 


Keywords: Digital Humanities, Interaktion, Internetbasierte Kommunikation, 
Sprachkorpora, TEI 


„Das Internet? Gibt’s diesen Blödsinn immer noch?“ 
(Homer Simpson) 


1 Einleitung 


Seit 2013 befasst sich eine Arbeitsgruppe (special interest group) im Rahmen der 
Text Encoding Initiative (TEI) unter dem Titel Computer-mediated communication 
(kurz: TEI-CMC-SIG) mit der Entwicklung eines XML-Schemas für die Repräsen- 
tation und Strukturannotation von Sprachdaten aus Formen internetbasierter 
Kommunikation. Das von der Gruppe entwickelte Schema soll eine einheitliche 
und softwareunabhängige, texttechnologische Modellierung von Sprachdaten 
internetbasierter Kommunikation in linguistischen Korpora ermöglichen und 
sich zugleich als Austauschformat für Korpusdaten eignen. Das Schema ist als 
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ein Basisschema konzipiert, dessen Grundstruktur sich aus Strukturinforma- 
tionen, die in den Korpus-Ausgangsdaten (die beispielsweise im HTML-Format 
vorliegen) bereits enthalten sind, durch einfache Transformationen möglichst 
automatisch erzeugen lassen soll. Die Motivation für die Erarbeitung eines 
solchen Basisschemas zielt auf die Bereitstellung einer Lösung für die Aufgabe 
der Strukturannotation, die für viele Korpusprojekte (zu unterschiedlichen 
Sprachen und für Daten aus unterschiedlichen IBK-Formen) praktikabel ist 
und die sich projektspezifisch erweitern lässt. Die Entscheidung, ein solches 
Schema auf der Grundlage des Encoding-Standards der TEI zu entwickeln, ist 
motiviert durch dessen Flexibilität: TEI-Schemas lassen sich über den Mecha- 
nismus der customization erweitern und an individuelle Bedürfnisse anpassen.' 
Daneben ist die Entscheidung für TEI aber auch dadurch motiviert, dass die 
von der TEI bereitgestellten Formate im Bereich der Digital Humanities als ein 
De-facto-Standard etabliert sind: Viele Sprachressourcen und Korpora — zum 
Beispiel das Deutsche Referenzkorpus DeReKo am Institut für Deutsche 
Sprache (IDS) und die DWDS-Textkorpora an der Berlin-Brandenburgischen 
Akademie der Wissenschaften (BBAW) - nutzen diese Formate bereits 
(Lüngen & Sperberg-McQueen 2012, CLARIN-D User Guide 2012: Kap. 6). Wer 
sich dafür entscheidet, seine Sprachressourcen in TEI zu repräsentieren, der 
sichert seinen Ressourcen damit eine grundsätzliche Interoperabilität mit 
anderen Sprachressourcen: Repräsentationsformate, die von vielen verwendet 
werden und die darüber hinaus - wie im Falle der TEI-Formate — software- 
unabhängig sind, werden mit sehr hoher Wahrscheinlichkeit auch in 20 Jahren 
noch gepflegt und von gängigen korpustechnologischen Werkzeugen verar- 
beitet werden können (Nachhaltigkeit). Interoperabilität vereinfacht darüber 
hinaus aber auch die Vernetzung von Ressourcen unterschiedlicher Urheber 
(Kombinierbarkeit). Ressourcen, die auf zumindest basaler Ebene in einem ein- 
heitlichen XML-Format repräsentiert sind, lassen sich mit weniger technischem 
und konzeptionellem Aufwand zusammenführen und mit den gleichen Werk- 
zeugen vergleichend auswerten als Ressourcen, die völlig unterschiedliche 
Formate verwenden. Nicht zuletzt verringert der Rückgriff auf Standards den 
Aufwand beim Aufbau neuer Ressourcen: Standards dienen dazu, „dass nicht 
jeder das Rad neu erfinden muss“ (Lobin 2010: 107); sie ermöglichen, dass für 
die zu lösende Aufgabe (im hier besprochenen Fall die Aufgabe der Repräsen- 
tation und Strukturannotation von Korpora internetbasierter Kommunikation) 
auf Lösungen zurückgegriffen kann, die sich in anderen Projekten ähnlicher 


1 Siehe hierzu das Kapitel Customization in den TEI-Guidelines: http://www.tei-c.org/ 
Guidelines/Customization/index.xml (letzter Zugriff: 8.11. 2017). 
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Art bereits bewährt haben (Ökonomie und Praktikabilität). Die Idee der 
Standardisierung zielt darauf, das Gemeinsame zu erfassen und einheitlich zu 
beschreiben, das für einen Gegenstand bzw. eine Domäne übergreifend zu den 
spezifischen Anforderungen und Forschungsinteressen in einzelnen Projekt- 
zusammenhängen festgestellt werden kann. Standardisierung und das, was 
ein Standard abbilden kann (und sollte), hat damit notwendigerweise Grenzen 
(Perkuhn, Keibel & Kupietz 2012: 68). Gerade deshalb zielt die Arbeit der 
TEI-CMC-SIG auf die Entwicklung lediglich eines Basisschemas, das grund- 
legende Struktureigenschaften erfasst, deren Beschreibung in vielen Projekten 
von Interesse ist. Auf dieses Basisschema sollen weitere, projektspezifische 
Annotationen aufsetzen können. 

In ihrer gegenwärtigen Fassung P5 enthalten die TEI-Guidelines noch keine 
Modelle für die Strukturbeschreibung von Formen internetbasierter Kommu- 
nikation. Die Entwicklung von Lösungen erfolgt daher gegenwärtig auf der 
Ebene von customizations. Customization bezeichnet eine Strategie bei der Ent- 
wicklung von TEI-Schemas, die es erlaubt, TEI in Domänen anzuwenden, die 
der Standard in seiner aktuellen Version noch nicht erfasst: 


Because the TEI Guidelines must cover such a broad domain and user community, it is 
essential that they be customizable: both to permit the creation of manageable subsets 
that serve particular purposes, and also to permit usage in areas that the TEI has not yet 
envisioned. Customization is a central aspect of TEI usage and the Guidelines are designed 
with customization in mind. (TEI-P5: Customization; Hervorhebung MB) 


Bislang liegen drei customizations für die Strukturannotation von IBK-Korpora 
vor, die im Zusammenhang mit der Arbeit der TEI-CMC-SIG entwickelt und die 
bereits in verschiedenen Korpusprojekten zum Deutschen und zum Franzö- 
sischen eingesetzt werden. Nächste Schritte der Arbeit der TEI-CMC-SIG werden 
darin bestehen, ausgehend von den entwickelten customizations eine Eingabe 
in den Standardisierungsprozess der TEI zu formulieren, um Modelle für die 
Strukturannotation von IBK-Korpora als echte Elemente einer künftigen Version 
des TEI-Standards zu verankern. 

Der vorliegende Beitrag beschreibt die Zielsetzung und den Ausgangs- 
punkt sowie den aktuellen Stand der Schemaentwicklung der TEI-CMC-SIG. 
Dazu wird zunächst ein Überblick über die Abdeckung internetbasierter Kom- 
munikation in der gegenwärtigen Korpuslandschaft und über Desiderate im 
Zusammenhang mit dem Aufbau von Korpora internetbasierter Kommunikati- 
on gegeben (Abschnitt 2). Anschließend wird die Frage diskutiert, inwieweit 
die internetbasierte Kommunikation, die durch beständigen technologischen 
Wandel geprägt ist, überhaupt sinnvoll in einem Repräsentationsformat abge- 
bildet werden kann, das beansprucht, stabile Interaktionsformate abzubilden 
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(Abschnitt 3). Abschnitt 4 gibt einen Uberblick iiber den in 2017 erreichten 
Stand der Schemaentwicklung. Der Beitrag schließt mit einem Ausblick auf 
künftige Arbeiten und auf die Korpuslandschaft von morgen (Abschnitt 5). 


2 Internetbasierte Kommunikation und 
Korpuslinguistik: Lagebericht, 
Forschungsbaustellen und Projekte 


Die wissenschaftliche Beschäftigung mit der Kommunikation im Internet kann 
auf eine gut 25-jährige Geschichte zurückblicken. Einen Fokus der linguis- 
tischen Forschung zum Gegenstand bildet dabei von Anfang an die Spezifik 
dialogisch-interaktionaler Sprachverwendung unter den Bedingungen digitaler 
Vermittlung. Den so charakterisierten Forschungsgegenstand bezeichne ich als 
Internetbasierte Kommunikation (kurz: IBK).? Internetbasierte Kommunikation 
vollzieht sich in einer Vielzahl unterschiedlicher Kommunikationsformen, die 
auf der Verwendung von unterschiedlichen Kommunikationstechnologien be- 
ruhen, die je spezifische mediale und modale Ressourcen sowie Bedingungen 
für die Produktion und Rezeption von kommunikativen Äußerungen vorge- 
ben.? Dazu zählen einerseits Technologien, die für die Nutzung anhand von 
Browsersoftware oder von Clientanwendungen auf dem PC konzipiert sind, 
und andererseits Technologien, die über sogenannte Apps auf Smartphones und 
Tabletcomputern als Endgeräten bereitgestellt werden. Eine Kommunikations- 


2 Zum Gegenstandsbereich gibt es in der Forschungsliteratur unterschiedliche Vorschläge zur 
terminologischen Konzeptualisierung, die letztlich einen hohen Grad an extensionaler Über- 
einstimmung aufweisen. Am ältesten und verbreitetsten ist die Etikettierung als computer- 
mediated communication (CMC, z.B. Herring 1996), ins Deutsche lehnübersetzt als Computer- 
vermittelte Kommunikation. Der hier präferierte Terminus Internetbasierte Kommunikation (IBK), 
der um die Jahrtausendwende als zeitgemäßere Alternative zu CMC geprägt und u.a. im DFG- 
Netzwerk Empirikom (Beißwenger 2017) verwendet wurde, grenzt die Kommunikation auf Basis 
von TCP/IP von anderen Formen computervermittelter Kommunikation ab (auch Briefe und 
Telefongespräche werden heutzutage unter Beteiligung von Computern vermittelt). Jucker & 
Dürscheid (2012) schlagen die Bezeichnung Keyboard-to-screen-Kommunikation vor, die die Spe- 
zifik der Ein-/Ausgabedimension fokussiert. Cum grano salis werden unter allen diesen Etiketten 
Erscheinungsformen interaktionaler Sprache unter den Bedingungen digitaler Vermittlung auf 
Basis von Computernetzwerken untersucht. Für eine eingehendere Diskussion der verschie- 
denen Konzeptualisierungen sei auf Storrer (2018) verwiesen. 

3 Zur Unterscheidung von Kommunikationstechnologien und Kommunikationsformen vgl. 
Beißwenger (2007: 107-112). 
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technologie kann dabei exklusiv für den Betrieb einer einzigen Anwendung 
konzipiert sein, deren Anbieter zugleich der Entwickler* der Technologie ist; 
Beispiele hierfür sind die Technologien, auf denen Social-Network-Plattformen 
wie Facebook, Google+, Twitter oder Instagram, die Video-Plattform YouTube, 
Lernplattformen wie moodle und stud.IP oder Kommunikationsdienste wie 
WhatsApp, Threema, Snapchat oder Skype beruhen. Andere Kommunikations- 
technologien existieren in Form von Software, die für die Installation und den 
Betrieb durch potenziell beliebig viele Anbieter bereitgestellt wird. Dazu zähle 
ich u. a. E-Mail-, Foren-, Chat-, Weblog- und Wiki-Software, die kostenfrei oder 
gegen Entgelt für eigene Instanziierungen entsprechender Anwendungen ge- 
nutzt werden kann. Kommunikation zwischen Nutzern zu ermöglichen, kann 
die primäre Funktion einer Kommunikationstechnologie sein (Chats, Foren, 
WhatsApp, Skype) oder auch nur eine Funktion neben weiteren darstellen (wie 
z.B. im Falle von sozialen Netzwerken, Lernplattformen, Wikis und YouTube). 
Innerhalb von Kommunikationsformen sind verschiedene kommunikative 
Gattungen realisierbar — vgl. hierzu analog die Unterscheidung der Konzepte 
„Kommunikationsform“ und „Textsorte“ bei Brinker, Cölfen & Pappert (2014: 
140-142) -, speziell in Bezug auf die internetbasierte Kommunikation entstehen 
dabei auch neue Gattungen, die zwar Vorläufer, aber keine direkten Entspre- 
chungen im Bereich der gesprochenen Sprache bzw. der nicht-internetbasierten 
Kommunikation haben. Kandidaten für solche neuen Gattungen sind in Chats 
z.B. die „interaktiven Lesespiele“ (Beißwenger & Storrer 2012), in Online- 
Computerspielen die multimodalen „Raids“ (Stertkamp 2016), in sozialen Netz- 
werken die sogenannten „Cybermobbing-Diskurse“ (Marx 2015).? 

Seit ihren Anfängen um Anfang der 1990er Jahre ist die IBK-Forschung 
stark empirisch ausgerichtet. Die starke empirische Ausrichtung steht aber — 
bis heute - in einem deutlichen Missverhältnis zur Verfügbarkeit frei zugängli- 
cher Korpora, die für die linguistische Recherche und Analyse aufbereitet sind 
und die — wie das im Bereich der Textkorpora (z. B. Lüngen 2017; Geyken et al. 
2017) bereits möglich ist - als Referenzressourcen für unterschiedlichste Arten 
von Forschungsfragen genutzt werden können. In aller Regel muss, wer ein 
sprachliches oder interaktionales Phänomen in der internetbasierten Kommu- 
nikation empirisch untersuchen möchte, ein geeignetes Datenset für sein Vor- 
haben selbst aufbauen. Das kostet Zeit, konzeptionelle Arbeit und häufig auch 


4 Aus Gründen der besseren Lesbarkeit wird in diesem Beitrag für alle Personenbezeichnungen 
das generische Maskulinum gewählt. Die weibliche Form wird dabei stets mitgedacht. Sämt- 
liche Personenbezeichnungen schließen somit beiderlei Geschlecht ein. 

5 Zur Abgrenzung von Kommunikationsformen und Gattungen in Bezug auf die internet- 
basierte Kommunikation vgl. auch Dürscheid (2005). 
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Geld — Ressourcen, die sich gewinnbringender einsetzen ließen, wenn frei 
nutzbare Referenzkorpora zum Gegenstand existierten, die verschiedene 
Kommunikationsformen und -kontexte abdecken und somit zwar sicherlich 
nicht für alle, aber zumindest für eine große Zahl von Forschungsfragen als 
Datengrundlage herangezogen werden können. 

Die unzureichende Abdeckung der internetbasierten Kommunikation in 
der aktuellen Korpuslandschaft ist nicht nur für die IBK-Forschung im engeren 
Sinne ein Problem, sondern generell für jedwede Forschung und praktische 
linguistische Tätigkeit, die auf die Beschreibung der deutschen Gegenwarts- 
sprache zielt: Angesichts der Bedeutung internetbasierter Kommunikation in 
vielen Bereichen des beruflichen und privaten Alltags und mit Blick auf die 
schiere Menge an geschriebener und gesprochener Sprache, die tagtäglich unter 
Nutzung internetbasierter Kommunikationstechnologien produziert wird, ist der 
Gegenstand „Deutsche Gegenwartssprache“ in gegenwartssprachlich ausgerich- 
teten Korpora und Korpussammlungen nur unzureichend erfasst, solange die 
Sprachverwendung in der internetbasierten Kommunikation darin nur unzu- 
reichend abgedeckt ist. Das schließt auch die lexikographische und gramma- 
tikographische Beschreibung der deutschen Gegenwartssprache und ihrer 
Varianten ein. 

Um die Abdeckung der internetbasierten Kommunikation in der Korpus- 
landschaft zum Deutschen und zu anderen Sprachen zu verbessern, müssen 
die Korpuslinguistik und ihre Nachbardisziplinen (insbesondere die Sprach- 
und Texttechnologie) sich verschiedener Desiderate und Problembereiche an- 
nehmen, die sich im Zusammenhang mit der Erhebung, der Dokumentation, 
der Aufbereitung und der Wiederbereitstellung von IBK-Daten in Korpora 
stellen. Diese Desiderate sind schon länger bekannt (vgl. die Problemaufrisse 
in Beißwenger & Storrer 2008; Storrer 2014: 187-191; Bolander & Locher 2014; 
Lemnitzer & Zinsmeister 2015: 151-152). Entwicklungs- und Klärungsbedarf 
besteht insbesondere in Bezug auf die folgenden Fragenkomplexe: 

- Fragen der Bewertung des rechtlichen Status für die Erhebung und Bereit- 
stellung von IBK-Daten (exemplarisch iRights.Law Rechtsanwälte 2016; 
Beißwenger et al. 2017b), damit verbunden die Entwicklung von Konzepten 
und Verfahren für die Anonymisierung und Pseudonymisierung von IBK- 
Daten (hierzu u.a. DiDi 2015; Beißwenger et al. 2017b). 

- Fragen der Erhebung von IBK-Daten aus Domänen privater Kommunikation 
(Facebook, WhatsApp, SMS ...) (Dürscheid & Stark 2011; Frey, Stemle & 
Glaznieks 2014; Verheijen & Stoop 2016). 

— Entwicklung von Formaten für die Repräsentation von IBK-Daten - als 
Voraussetzung für den Austausch und die Vernetzung von Ressourcen 
(Beißwenger et al. 2012; Chanier et al. 2014). 
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— Entwicklung von Formaten für die Erfassung und Repräsentation von Meta- 
daten; hier sind u.a. auch solche Metadaten zu berücksichtigen, die die 
Kommunikationsumgebungen beschreiben, aus denen die Korpusdaten er- 
hoben wurden. Mit Blick auf die Veränderlichkeit von digitalen Technolo- 
gien und Kommunikationsumgebungen sind für die Nachnutzbarkeit der 
Korpusdaten und für das Verständnis der mit diesen Daten dokumentierten 
Interaktionen 10, 20 oder 30, unter Umständen sogar bereits 3 Jahre nach 
ihrer Erhebung solche beschreibenden Daten von großer Wichtigkeit. 

- Fragen der Anpassung sprachtechnologischer Verfahren für die Segmentie- 
rung und Klassifikation von Sprachdaten (Tokenisierung, morphosyntak- 
tische Annotation, Lemmatisierung, Parsing) an die sprachlichen Beson- 
derheiten internetbasierter Kommunikation (u. a. Giesbrecht & Evert 2009; 
Horbach et al. 2014; Horsmann & Zesch 2015; WACX & EmpiriST 2016). 

— Anpassung von Korpusverwaltungs- und -abfragesystemen an die Anfor- 
derungen und Nutzerinteressen in Bezug auf IBK-Daten. 


Die Gelegenheit für die Erarbeitung von projektübergreifend nützlichen 
Lösungen für die skizzierten Desiderate - und damit für die Entwicklung von 
Standards bottom-up - ist aktuell günstiger denn je: In den vergangenen 
Jahren wurden für verschiedene Sprachen und IBK-Formen Korpusprojekte 
auf den Weg gebracht, deren Ergebnisse nach Abschluss der Projektlaufzeit 
der Scientific Community als Ressourcen zur Verfügung gestellt werden sollen 
oder bereits zur Verfügung stehen. Die Erfahrungen und Lösungsansätze, die 
in diesen Projekten entwickelt werden, stellen wertvolle Ressourcen für die 
Entwicklung von projektübergreifenden Lösungen dar.® 
Beispiele für aktuelle (abgeschlossene und laufende) Korpusprojekte sind: 
— CoMeRe: eine Sammlung von vierzehn IBK-Korpora zum Französischen, 
die neun verschiedene IBK-Genres abdeckt (SMS, Wikipedia-Diskussionen, 
Tweets, Weblogs, E-Mails, Diskussionsforen, Chat, multimodale Formen) 
und die neben rein schriftlichen auch multimodale, synchrone und asyn- 
chrone Formen sowie Kommunikation aus dem öffentlichen und aus dem 
privaten Bereich erfasst. Sämtliche Korpora sind in TEI repräsentiert 
(Chanier et al. 2014) und werden unter einer CC-BY-Lizenz als OpenData 
über ORTOLANG’ als downloadbare Ressourcen zur Verfügung gestellt. 


6 Beispiele für Lösungsansätze aus verschiedenen Projekten beschreiben Beißwenger et al. 
(20178). 
7 http://hdl.handle.net/11403/comere (letzter Zugriff: 8. 11. 2017). 
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-  CorCenCC-CMC: eine seit 2016 im Aufbau befindliche e-language-Komponente 
im Projekt Corpws Cenedlaethol Cymraeg Cyfoes (National Corpus of Contem- 
porary Welsh, CorCenCC) mit Sitz an der Cardiff University (UK).® 

— DEREKo-NEWs: das seit 2013 aufgebaute deutsche Newsgroup-Korpus in 
DEREKO? im Umfang von 98 Millionen Tokens mit Daten aus den Jahren 
2013-2016 (Schröck & Lüngen 2015). 

— DEREKo-Wikipedia: die Wikipedia-Korpora in DEREKO, die Artikel- und 
Diskussionsseiten im Umfang von 581 Millionen Tokens enthalten und vom 
IDS sowohl als downloadbare Ressourcen als auch zur Abfrage über 
COSMAS II"? angeboten werden (Margaretha & Lüngen 2014). 

— DiDi: Korpus zur Sprachverwendung in Facebook mit Daten deutscher und 
italienischer Sprache sowie in Südtiroler Mundart, aufgebaut im Rahmen 
des DiDi-Projekts (Digital Natives - Digital Immigrants) an der EURAC in 
Bozen (IT) und online abfragbar via ANNIS (Frey, Glaznieks & Stemle 
2016)." 

— Dortmunder Chat-Korpus: Korpus mit einer Million laufenden Wortformen 
zur deutschsprachigen Chat-Kommunikation in unterschiedlichen Hand- 
lungsbereichen (Freizeit, Bildung, Beratung, Medien), die um XML- 
Annotationen zu ausgewählten Sprachmerkmalen angereichert wurden 
(Beißwenger 2013). Das Korpus wurde seit 2005 in einer „Releaseversion“ 
zum freien Download angeboten.” Eine um Part-of-speech-Annotationen 
sowie eine TEI-Repräsentation erweiterte, vollständig anonymisierte Version 
(Chat-Korpus 2.0) wurde 2015-2017 in die CLARIN-D-Korpusinfrastrukturen 
integriert und steht seit Herbst 2017 als Teil des DEREKo und der Korpus- 
sammlung der Berlin-Brandenburgischen Akademie der Wissenschaften 
für die Online-Abfrage über die Korpus-Rechercheschnittstellen am Institut 
für Deutsche Sprache (IDS) Mannheim und über das Portal www.dwds.de 
zur Verfügung (Lüngen et al. 2016; Beißwenger et al. 2017b)." 


8 http://sites.cardiff.ac.uk/corcencc/ (letzter Zugriff: 8.11. 2017). 

9 http://www.ids-mannheim.de/dereko (letzter Zugriff: 8. 11. 2017). 

10 https://cosmas2.ids-mannheim.de/ (letzter Zugriff: 8. 11. 2017). 

11 http://www.eurac.edu/didi (letzter Zugriff: 8. 11. 2017). 

12 http://www.chatkorpus.tu-dortmund.de/ (letzter Zugriff: 8.11. 2017). 

13 Am IDS ist das Chat-Korpus über COSMAS II recherchierbar und darüber hinaus via http:// 
hdl.handle.net/10932/00-0379-FDFE-CC30-0301-E (letzter Zugriff: 8.11. 2017) als downloadbare 
Ressource über das IDS-Repository erhältlich. Im BBAW-Repository steht das Korpus unter 
http: //hdl.handle.net/11858/00-203Z-0000-002D-EC85-5 (letzter Zugriff: 8.11. 2017) zur Verfü- 
gung. Nach kostenfreier Registrierung können Interessierte das Korpus im Portal www.dwds.de 
im Bereich „Textkorpora“ abfragen. 
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DWDS-Blogkorpus: 103 Millionen Tokens aus CC-lizenzierten Weblogs, 
großenteils in deutscher Sprache, die über das DWDS-Portal!* der BBAW 
recherchierbar sind (Barbaresi & Würzner 2014; Barbaresi 2016). 

Gießener Scienceblog-Korpus: laufendes Projekt zum Aufbau eines Korpus 
deutschsprachiger Wissenschaftler-Blogs an der Universität Gießen (Grumt 
Suärez, Karlova-Bourbonus & Lobin 2016). 

Janes: Projekt Jezikoslovna analiza nestandardne slovenščine (Corpus of 
Nonstandard Slovene, Fišer, Erjavec & LjubeSié 2016, 2017)” mit 200 Millio- 
nen Tokens aus verschiedenen IBK-Formen (Tweets, Forendiskussionen, 
Blogs, Leserkommentare aus Nachrichtenportalen, Wikipedia-Diskussions- 
seiten). Die Korpusdaten sind linguistisch annotiert und wurden automa- 
tisch nach dem Grad ihrer Konformität zum geschriebenen Standard klassi- 
fiziert (LjubeSi¢ et al. 2015); die dabei ermittelten Werte sind den Daten in 
Form von Metadaten beigegeben. 

MoCoDa?: laufendes Projekt an der Universität Duisburg-Essen, in dem 
eine Datenbank und ein Web-Frontend für die wiederholte Sammlung von 
Spenden aus digitaler Kurznachrichtenkommunikation (WhatsApp und 
vergleichbare Dienste) entwickelt wird.!° Die Datenstücke der Sammlung 
werden unter Einbeziehung der Spender mit reichhaltigen Metadaten aus- 
gestattet und dadurch insbesondere auch für qualitative korpusgestützte 
Analysen interessant. Es ist geplant, die aufbereiteten Datenspenden in 
regelmäßigen Abständen in die Korpussammlungen am IDS zu integrieren. 
NPS Chat Corpus: ein Korpus mit 45.000 laufenden Wortformen aus eng- 
lischsprachigen, altersspezifischen Chatrooms, das um Part-of-speech- 
Informationen und eine Dialogaktklassifikation angereichert ist (Forsyth & 
Martell 2007) und das über das Linguistic Data Consortium (LDC) zur Ver- 
fügung gestellt wird.” 

sms4science.ch: Korpus mit gespendeten SMS-Nachrichten (Deutsch, 
Französisch, Schweizerdeutsch, Italienisch, Rätoromanisch) im Umfang 
von 650.000 Tokens (Dürscheid & Stark 2011); online abfragbar in einer 
Volltextversion (SMS Navigator) und als teilweise annotierte Version in 
ANNIS.'8 

SoNaR-CMC: IBK-Komponente mit Chats, Tweets und SMS-Nachrichten im 
Referenzkorpus des Gegenwarts-Niederländischen (Oostdijk et al. 2013); 
online abfragbar via CLARIN-NL (OpenSoNaR).'? 


14 https://www.dwds.de (letzter Zugriff: 8.11. 2017). 

15 http://nl.ijs.si/janes/ (letzter Zugriff: 8. 11. 2017). 

16 http://www.mocoda2.de/ (letzter Zugriff: 8. 11. 2017). 

17 http://faculty.nps.edu/cmartell/NPSChat.htm (letzter Zugriff: 8.11. 2017). 
18 http://www.sms4science.ch (letzter Zugriff: 8.11. 2017). 

19 https://portal.clarin.nl/node/4195 (letzter Zugriff: 8.11. 2017). 
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- Suomi24: umfangreiche Sammlung (2,38 Milliarden Tokens) mit Daten aus 
finnischen Diskussionsforen mit morphosyntaktischen Annotationen; als 
Download verfügbar.?® 

—  Web2Corpus_it: laufendes Projekt zum Aufbau eines ausgewogenen Korpus 
zur italienischen IBK mit Daten aus Foren, Blogs, Newsgroups, sozialen 
Netzwerken und Chats (Chiari & Calzonetti 2014).?' 

— whatsup-switzerland.ch: Korpus des Projekts What’s up, Switzerland?, 
in dem spendenbasiert 650 WhatsApp-Chatverläufe im Umfang von ins- 
gesamt 5 Millionen Tokens gesammelt wurden.” 


Der Austausch von best practices, Werkzeugen und Expertise zwischen Korpus- 
projekten zum Thema stellt eine wichtige Vorbedingung dar, um in einem 
community-driven approach projektübergreifend nutzbare, dokumentierte und 
nachhaltige Lösungen für die Herausforderung zu entwickeln, internetbasierte 
Kommunikation in linguistischen Korpora zu repräsentieren. Als fruchtbares 
Format, um die dafür erforderliche Vernetzung anzustoßen, hat sich die Kon- 
ferenzreihe „Conference on CMC and Social Media Corpora in the Humanities“ 
erwiesen, bei der seit 2013 in jährlichem Turnus Korpusprojekte, Entwickler 
von korpus- und sprachtechnologischen Werkzeugen sowie korpuslinguistisch 
arbeitende Geisteswissenschaftler zusammenkommen, um aktuelle Forschungs- 
und Entwicklungsarbeiten für verschiedene Sprachen vorzustellen sowie Er- 
fahrungen und Lösungsansätze zu diskutieren.” Die enge Anbindung an Initi- 
ativen und Verbundprojekte, die sich im Bereich der Digital Humanities mit 
der Etablierung von einheitlichen Formaten (TEI) und Sprachressourceninfra- 
strukturen (CLARIN, DARIAH) beschäftigen, stellt die Voraussetzung dar, um 
die Interoperabilität von IBK-Korpora mit Sprachressourcen zu anderen Domä- 
nen des Sprachgebrauchs (Text- und Gesprächskorpora) zu gewährleisten. 
Interoperabilität: Korpora, die in aufeinander abbildbaren Formaten reprä- 
sentiert sind, können einfacher miteinander kombiniert und mit den gleichen 
Korpustechnologien ausgewertet werden als wenn das nicht der Fall ist. Sind 
diese Formate zudem kompatibel mit Formaten, die in existierenden Text- und 


20 http://urn.fi/urn:nbn:fi:lb-201412171 (letzter Zugriff: 8. 11. 2017). 

21 Project page: http://www.glottoweb.org/web2corpus/ (letzter Zugriff: 8.11. 2017). 

22 http://www.whatsup-switzerland.ch/ (letzter Zugriff: 8.11. 2017). Eine vergleichbare, 
einmalige Datensammlung für das Deutsche (http://www.whatsup-deutschland.de/, letzter 
Zugriff: 8.11. 2017) wurde 2014/2015 von Beat Siebenhaar (Leipzig) initiiert und unter Beteili- 
gung von sieben deutschen Universitätsstandorten durchgeführt. 

23 Einen Überblick über Korpusprojekte und darauf bezogene Forschungsfragen bieten die 
Buchpublikationen zu den Konferenzen 2013, 2015 und 2016 in Dortmund, Rennes und Ljubljana 
(Beißwenger et al. 2014; Wigham & Ledegen 2017; Fišer & Beißwenger 2017). 
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Gesprächskorpora verwendet sind, können IBK-Korpora darüber hinaus auch 
mit Korpora anderen Typs kombiniert und in existierende Korpussammlungen 
integriert werden. Für die empirische Analyse von Sprache und Interaktion 
eröffnet das interessante Perspektiven: 

1. verbesserte Möglichkeiten der kombinierten Auswertung von IBK-Korpora 
in unterschiedlichen Sprachen im Rahmen sprachvergleichender Unter- 
suchungen; 

2. verbesserte Möglichkeiten der Untersuchung von sprachlichen und kom- 
munikativen Praktiken in unterschiedlichen Formen und Gattungen inter- 
netbasierter Kommunikation, die in Korpora unterschiedlicher Anbieter 
dokumentiert sind; 

3. verbesserte Möglichkeiten der kombinierten Auswertung von IBK-Korpora 
mit Text- und Gesprächskorpora (vergleichende Untersuchung sprach- 
licher und interaktionaler Phänomene in monologischen Texten, münd- 
lichen Gesprächen und in dialogischer Schriftlichkeit). 


Ein wichtiger Baustein für die Herstellung von Interoperabilitat ist die Verwen- 
dung eines einheitlichen Basisformats für die Repräsentation und Struktur- 
beschreibung der Korpusdaten. Ein solches Format existiert bislang nicht, es 
wird aber dringend benötigt. 


3 Panta rhei? Internetbasierte Kommunikation 
zwischen Veränderlichkeit und Stabilität 


Die Entwicklung eines Basisformats für die Repräsentation von Daten internet- 
basierter Kommunikation setzt voraus, dass es übergreifende und stabile Inter- 
aktionsformate gibt, die sinnvoll in einem einheitlichen Repräsentationsformat 
abgebildet werden können. Ein Repräsentationsformat, das für möglichst viele 
Korpora als grundlegendes Annotations- und als Austauschformat brauchbar 
sein soll, darf weder so spezifisch sein, dass für jedes Genre internetbasierter 
Kommunikation (z.B. Chat, SMS, Instant Messaging, Microblogging, Forum, 
Blogkommentare) bzw. für Daten aus unterschiedlichen Plattformen und 
Anwendungen (z.B. WhatsApp, Threema, Facebook, Instagram, Twitter, 
Wikipedia-Diskussionen) ein eigenes Strukturmodell benötigt wird. Stattdes- 
sen sollte es einen Abstraktionsgrad aufweisen, der zentrale Strukturmerkmale 
internetbasierter Kommunikation übergreifend zu Kommunikationsformen 
und -anwendungen erfasst. Das mit ihm beschriebene Interaktionsformat sollte 
zudem so stabil sein, dass mit hoher Wahrscheinlichkeit davon ausgegangen 
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werden kann, dass das Strukturmodell nicht Jahr für Jahr einer Revision be- 
darf, um es an zwischenzeitlich eingetretene Veränderungen der Technologie 
anzupassen. Ein Repräsentationsformat, das sich ständig verändert, gewähr- 
leistet gerade keine Interoperabilität. 

Nun ist jedoch insbesondere die internetbasierte Kommunikation in hohem 
Maße von Veränderlichkeit geprägt. Das Nachdenken über ein Strukturmodell 
muss daher zunächst die folgenden Fragen klären: 

- Gibt es überhaupt übergreifende Interaktionsformate in der internet- 
basierten Kommunikation? 

— Wenn ja: Sind diese stabil, d.h. relativ beständig gegenüber technolo- 
gischem Wandel? 


Unter einem Interaktionsformat verstehe ich dabei eine Struktur für die Orga- 
nisation von Interaktionsereignissen, die durch kommunikative Rahmen- 
bedingungen geprägt ist, die sich aus Festlegungen auf der Ebene der Kom- 
munikationstechnologie ergeben und für die Nutzer der Technologie nicht 
änderbar sind. Die Gesamtheit dieser Bedingungen definiert die medialen und 
modalen Ressourcen, die für die Interaktionspraxis auf Grundlage der betref- 
fenden Technologie zur Verfügung stehen. Da sich das Format nicht als sol- 
ches, sondern immer erst bei seiner Instanziierung in konkreten Interaktions- 
ereignissen zeigt, stellt die Konkretisierung des Formats im Vollzug immer die 
Schnittstelle zwischen den invarianten technologischen Rahmenbedingungen 
und den sprachlichen und kommunikativen Praktiken dar, mit denen sich die 
Interagierenden unter Nutzung der gegebenen Ressourcen die technologischen 
Bedingungen für die Zwecke der Interaktionskonstitution zu eigen machen. 


3.1 Veränderlichkeit 


Im Kontext der Modellierung und Analyse sprachlicher und kommunikativer 
Praktiken (Deppermann et al. 2016) bildet die internetbasierte Kommunikation 
einen spannenden Untersuchungsgegenstand. Geradezu Fishbowl-artig lässt 
sich an (und in) ihr studieren, wie sich die Nutzer internetbasierter Kommuni- 
kationstechnologien an die von der Technologie gesetzten Rahmenbedingun- 
gen anpassen, um unter diesen Bedingungen bestmöglich das zu tun, wozu 
die Technologie gemacht ist: Interaktion zu gestalten. Da jedweder Austausch 
im Netz — das schließt browserbasierte Anwendungen und auf dem Smartphone 
genutzte, App-basierte Anwendungen gleichermaßen ein - nur unter den 
Bedingungen technischer Vermittlung zustande kommt und die technischen 
Rahmenbedingungen für die Interaktionsorganisation in jeder Anwendung 
unterschiedlich ausgeprägt sein können, bildet die Analyse internetbasierter 
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Kommunikation ein äußerst produktives Anwendungsfeld, um die Vielfalt und 
Flexibilität der Praktiken-Praxis unter Bedingungen technischer Vermittlung 
zu untersuchen. Nicht von ungefähr nimmt die Analyse von Praktiken breiten 
Raum in der interaktions- und konversationsanalytischen Beschäftigung mit 
internetbasierter Kommunikation ein. Stark beforscht wurden in der IBK- 
Forschung schon früh beispielsweise Ausprägungen der Konzepte turn, turn- 
taking, adjacency und floor (Murray 1989; Garcia & Baker Jacobs 1998, 1999; 
Cherny 1999; Storrer 2001; Beißwenger 2003 u.a.), Praktiken der Kohärenz- 
sicherung (Herring 1999; Severinson Eklundh 2010), die Beitragsproduktion 
bzw. Turnkonstruktion (Garcia & Baker Jacobs 1998, 1999; Markman 2006; 
Beißwenger 2007), Formen der Reparatur und der schriftlichen Revision 
(Schönfeldt & Golato 2003; Beißwenger 2010). Neuere Arbeiten, die Phänomene 
internetbasierter Kommunikation auf dem Hintergrund des Programms der 
Interaktionalen Linguistik (Selting & Couper-Kuhlen 2000) analysieren, sind 
z. B. Imo (2015a) zur konstruktionsgrammatischen Analyse von Emoticons, Imo 
(2015b) zur Portionierung von Äußerungen in WhatsApp-Dialogen, König (2015) 
zu Sequenzmustern, Lindemann, Ruoss & Weinzinger (2014) zu Praktiken des 
Editierens. Einen Uberblick iiber Kandidaten fiir Praktiken in verschiedenen 
Formen internetbasierter Kommunikation bietet Beißwenger (2016). 

Praktiken variieren in Abhängigkeit zu den modalen und medialen Res- 
sourcen, die den Interaktionsbeteiligten für die Interaktionskonstitution zur 
Verfügung stehen. Die Ressourcen, die in Formen der technisch vermittelten 
Kommunikation genutzt werden können, variieren in Abhängigkeit zur Verän- 
derlichkeit von Technologien. In technologischer Hinsicht ist Veränderlichkeit 
ein fundamentales Merkmal der internetbasierten Kommunikation: Neue Kom- 
munikationstechnologien kommen auf und verdrängen andere Kommunika- 
tionstechnologien aus der Gunst der Nutzer bzw. bestimmter Nutzergruppen. 
So hat beispielsweise die Anwendung Snapchat nach den Ergebnissen der 
jüngsten Ausgabe der JIM-Studie (2016) in der Gunst der 12-19-Jährigen deut- 
lich zugelegt, während für Facebook bei derselben Gruppe ein vergleichbar 
großer Abfall in der Nutzergunst zu verzeichnen ist. Zugleich entwickeln sich 
Kommunikationstechnologien weiter, so dass sich für die Nutzer der auf ihrer 
Grundlage bereitgestellten Anwendungen die zur Verfügung stehenden tech- 
nischen Handlungsmöglichkeiten und damit die medialen und modalen Res- 
sourcen für die Interaktionskonstitution kontinuierlich verändern. So hat die 
Plattform Facebook 2013 die ursprünglich nur auf Twitter nutzbaren Hashtags 
eingeführt, um ihren Nutzern zusätzliche Möglichkeiten zur thematischen Ver- 
netzung von Beiträgen zu bieten. Durch diese Änderung hat sich das System 
von Mitteln für die thematische Organisation und Verknüpfung von Inter- 
aktionen insgesamt verändert. Ähnliches gilt für die — ebenfalls von Twitter 
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übernommene - Einführung der automatischen Verlinkung von Adressierungs- 
ausdrücken auf die Profilseite des adressierten Nutzers, verbunden mit der An- 
zeige des Postings, das eine Adressierung enthält, auf der individuellen Start- 
seite des Adressaten: Adressierung wird dadurch in Facebook zu einem Mittel, 
um die Aufmerksamkeit von Adressaten zu gewinnen und diesen die Existenz 
für sie relevanter Interaktionsäußerungen im Push-Verfahren bekannt zu ma- 
chen. Damit gewinnt die Praktik des Adressierens, wie sie sich in der frühen 
Chat- und Foren-Kommunikation als zunächst rein textuelle Praktik für die 
Kohärenzsicherung herausgebildet hat, an zusätzlichen Dimensionen und 
entwickelt sich zu einer Praktik der Aufmerksamkeitsgewinnung. 


3.2 Stabilität 


Das Internet ist mittlerweile alt genug für Stabilität. Bei all der Variabilität von 

Ressourcen und darauf bezogenen Praktiken gibt es durchaus Formate, die 

sich als weitgehend beständig gegenüber Wandel erwiesen haben und die sich, 

auch wenn sie in unterschiedlichen Instanziierungen unterschiedlich ausge- 
prägt sein mögen, übergreifend zu einzelnen IBK-Genres und -Plattformen be- 
schreiben lassen. Im Folgenden charakterisiere ich anhand einer Gegenüber- 
stellung der Instanziierungen von Interaktion in sechs verschiedenen Arten 
von Kommunikationsumgebungen ein Format, das seit inzwischen mehr als 
einem Vierteljahrhundert in der internetbasierten Kommunikation präsent ist 
und das sicherlich auch noch in den nächsten zehn Jahren Bestand haben 
wird. Zwar wandelt auch dieses Format kontinuierlich sein Gesicht und stellt 

sich in unterschiedlichen Instanziierungen durchaus unterschiedlich dar; im 

Kern hat es sich jedoch als erstaunlich robust erwiesen. 

Zwischen den in den Abb. 14.1-14.6 veranschaulichten Instanziierungen 
von Interaktion gibt es Gemeinsamkeiten und Unterschiede. Gemeinsam ist ih- 
nen, dass sie aus schriftlichen Einheiten aufgebaut sind, die im Layout klar 
voneinander abgegrenzt sind und die jeweils einem Urheber zugeordnet sind. 
Ich nenne diese Einheiten Postings, weil das englische Verb ‚to post‘ und sein 
ins Deutsche entlehntes Pendant ‚posten‘ treffend ausdrücken, was diese Ein- 
heiten charakterisiert und von den grundlegenden Einheiten mündlich reali- 
sierter Interaktionen — den Turns - unterscheidet: 

— Sie werden erst als Ganze für die anderen Beteiligten wahrnehmbar, und 
zwar erst dann, nachdem sie durch Ausführung einer expliziten Ver- 
schickungsanweisung an den Server übergeben und von diesem weiter- 
übermittelt wurden. Eine inkrementelle Verarbeitung der Äußerung (= des 
Geposteten) simultan zu ihrer Hervorbringung und damit eine rezipienten- 
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ra cm å M SE 
á an 


? Mai 4 
ai um 


Kommt dir diese Straßenkreuzung auch bekannt vor? 


la Gefällt mir 8 Kommentieren Æ Teilen 


BE KBE Das ist die Stadtmitte von Puerto Maldonado. Ich denke, die Stelle, 
an der wir den Aufständischen gegenüberstanden. Damals, als wir noch jung 
und verwegen waren. 

Gefällt mir - Antworten - © 1 - 7. Mai um 22 


MEE COREE (ch sage nur Pfeil und Bogen. 
5:417 


Gefällt mir - Antworten © 1 - 11. Mai um 1 


1.24] BENN KE ich hade neulich mal ein bisschen recherchiert. Da gab 
es zwei Jahre später wohl noch richtig heftige Unruhen, bei denen auch 
das Umweltamt in Flammen aufging und NGOs angegriffen wurden. 
Zum Glück waren wir dann offiziell ja auf der Seite der Aufständischen! 
Gefällt mir - Antworten © 1 - 11. Mai um 15:24 - Bearbeitet 


g hreibe eine Antwort | ® 


Abb. 14.1: Vier Postings mit Thread-Struktur auf einer Facebook-Profilseite: 
Die Postings 3 und 4 erscheinen, da sie von den Verfassern als „Antworten“ auf 
das Vorgänger-Posting gekennzeichnet wurden, eingeriickt. 


seitige Einwirkung auf den Verbalisierungsplan des Produzenten, wie das 
für Turns in mündlichen Gesprächen charakteristisch ist, ist ausgeschlossen. 

- Die Produktion geht der Wahrnehmung durch andere voraus und ist ein 
privater Akt, auch wenn manche Kommunikationsanwendungen - z.B. 
WhatsApp - ihren Nutzern über temporäre Hinweise anzeigen, wenn einer 
der anderen Beteiligten gerade einen Beitrag eingibt („Nutzer X schreibt ...“). 
Was während der Beitragseingabe im Eingabeformular auf dem Display 
des Produzenten entsteht und wie es sich verändert, bleibt den übrigen 
Beteiligten aber verborgen. 

- Solange der eingegebene Beitrag nicht verschickt wurde, hat der schriftliche 
Entwurf den Charakter der Vorläufigkeit - und zwar auch technisch: Er kann 
ganz oder in Teilen, beliebig oft und in beliebigem Umfang revidiert werden. 
Beißwenger (2007, 2010) zeigt empirisch an dokumentierten Produktions- 
verläufen, dass von dieser Möglichkeit rege Gebrauch gemacht wird. Eine 
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S cy nr U © : 


Also there's a budget folder now in dropbox with second 
sheet where Im keeping track of nights and travel requests 
It's shared with our admin 


We can ask a hotel in essen to block a number of rooms 


for our event 1959 of" 


Yes that's what i was thinking. Great! If we get money 
soon booking early will keep down costs 


Super! 


Pl let you know the estimated prices next week, ok? 


13514 


Great. Have a good weekend. The embassy also sent me 
their logo - in dropbox 


which dropbox folder? Have u already shared it with me? 


Yes! 


Hmmm ... what's its name? 


19:53 4 


Abb. 14.2: Ausschnitt aus einer WhatsApp-Interaktion. Die rechtsbündig dargestellten 
Postings wurden von der Interaktionspartnerin verfasst und sind mit automatisch generierten 
Hinweisen zum Übermittlungsstatus (Häkchen rechts unten) versehen. 


Bearbeitung des Entwurfs ist grundsätzlich nicht nur für den Autor selbst, 
sondern auch für Zusatzprogramme möglich, die auf dem Endgerät oder in 
der betreffenden Kommunikationsanwendung im Hintergrund laufen (z.B. 
Autokorrekturfunktionen, die, insbesondere auf mobilen Endgeräten, z. T. 
erheblich zur sprachlichen Gestalt der verschickten Postings beitragen). 


Einen Sonderfall der Postings stellen die sogenannten Sprachnachrichten in 
WhatsApp-Interaktionen dar. Dabei handelt es sich um aufgezeichnete, münd- 
lich realisierte Äußerungen, die in Form von Audiodateien übermittelt und 
dadurch - analog zu ihrem schriftlichen Pendant - erst im Nachhinein zur 
Verbalisierung rezipierbar werden. Ich bezeichne diese Form der Postings als 
Audio-Postings, um sie — aus denselben Gründen wie im Falle der schriftlichen 
Postings — terminologisch von Turns in Gesprächen abzugrenzen. Revisionen 
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YouSiMita night flight orchestra midnight mover 


é Bill Conway 1 Monat 
well that was damn g 


-10 é P 


Steve Hunt Monat 
S That sounded like the seventies - i HATE the seventies. 


WHY did i love that? 
A H ép 


Antworten ausblenden A 
= Arcterion 1 Monat 
More like mid-80s, to be honest. 
-15 @ P 


Steve Hunt 
to be slightly more honest than you,.. i stand by my statement 
6 éP 


& Necrotic Reaper 
. Probably because 70's sound with modern production, and Bjorn Strid. 


éP 
pP Glasto Standard 
Calm down dude 

a oe 


Steve Hunt 
(the other guy deleted his comments) 
All dudes are now calmed. 
Ze i 


A Dr. Ostbahn 
it sounds like Rainbow with Graham Bonnet. 
-1 u) 


Abb. 14.3: Kommentarsektion unter einem YouTube-Video. Die einzelnen Postings sind — 
ähnlich wie in Facebook - mit sog. „Likes“ versehen; von den Verfassern als Antworten 
markierte Postings erscheinen eingeriickt. 


von Sprachnachrichten sind nur komplett möglich: Eine laufende Audioauf- 
zeichnung kann abgebrochen, aber nicht in Teilen editiert werden. Für über- 
mittelte Audio-Postings gilt, dass der Prozess ihrer Verbalisierung in der Rezep- 
tion für die Adressaten transparent wird; das gilt aber nicht für Vorversionen, 
bei denen die Aufnahme abgebrochen wurde. Auch das ist ein wichtiger Unter- 
schied zu den Verbalisierungs- und Wahrnehmungsbedingungen in münd- 
lichen Gesprächen. 
Gemeinsam ist den abgebildeten Beispielen weiterhin Folgendes: 
- Die Vermittlung der Interaktionsbeiträge erfolgt über ein Logfile am Bild- 
schirm, das im Falle „synchroner“?* Kommunikationsumgebungen (z.B. in 


24 Ich verwende den Ausdruck ‚synchron‘ in Anführungszeichen, um deutlich zu machen, 
dass Chats aufgrund der oben beschriebenen Zeitlichkeitsbedingungen nicht in gleicher Weise 
unter Bedingungen der „Gleichzeitigkeit“ stattfinden wie mündliche Gespräche. Auf Garcia & 
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@ sd S Folgen 
a 


Wenn ein Tier im #Tatort einen Namen hat, ist 
dies meist sein Todesurteil. 


Ob das auch für den #Polizeiruf gilt? 
Armer Speedy. 
0 


A E 
& 
A 


Bitte nicht schon wede 


inen Hund toten! Da muss es Goch andere Optionen 
geben, falis die Dramaturgie weiterer Leichen bedarf! t 


Hat immerhin schon zwei Folgen durchgenaten. Wir hoffen 


Abb. 14.4: Posting auf Twitter („Tweet“) mit zwei Antwort-Postings, die als Thread unter 
dem Bezugsposting angezeigt werden. Die einzelnen Postings enthalten automatisch 
generierte Metadaten (u. a. zur Anzahl der Likes und Antworten sowie zur Anzahl der Retweets). 


klassischen IRC- und Webchats) mindestens für die Dauer der aktuellen 
Sitzung, in vielen Umgebungen aber theoretisch unbegrenzt persistent ist 
(WhatsApp, Online-Foren, Twitter, Facebook usw.). Was geäußert wird, do- 
kumentiert sich in einem gespeicherten Verlauf. Durch das Posting-Format 
der ausgetauschten Beiträge wird die Persistenz von Interaktionsbeiträgen 
zur notwendigen Grundbedingung für die Interaktionskonstitution: Wenn 
Beiträge zunächst als Ganze verbalisiert werden, bevor sie in einem der 
Verbalisierung nachgeordneten Schritt für die Adressaten wahrnehmbar 
werden, bedarf die Interaktion der Überlieferung (i. S.v. Ehlich 1984), um 
zu funktionieren. Da überdies der Zeitpunkt, ab dem ein Posting am Bild- 


Baker Jacobs (1998) geht der Vorschlag zurück, die Kommunikation in Chats und mit vergleich- 
baren Technologien als quasi-synchronous (bzw. mit Dürscheid 2005 als „quasi-synchron“) zu 
charakterisieren. Das Etikett ‚quasi-synchron‘ signalisiert zwar, dass die Kommunikation in 
den damit charakterisierten Form(at)en nicht gänzlich synchron verläuft, bleibt hinsichtlich 
des Unterschieds, um den es geht, jedoch unterspezifiziert bzw. weist ihn als letztlich doch 
vernachlässigbar aus (lat. quasi = ‚vergleichbar, ungefähr‘). Gerade im ‚quasi‘ zeigen sich aller- 
dings die für die Interaktionskonstitution fundamentalen Unterschiede zum Gespräch. In Beiß- 
wenger (2007, 2010) habe ich deshalb vorgeschlagen, Formen wie Chats als „synchrone, aber 
nicht simultane“ Formen bzw. die Kommunikationsbedingungen in Chats und vergleichbaren 
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Abso-fucking-lutely 
derfish 
tereotypes save time The first episode isn't like the rest. Give it two and you'll be hooked. Al 
*  Sweringen is the best 


Mocs 


Buff_Ruffnek 8 
POPE of RAPEZY Carradine as Bi 


2 Il Hicock was age 
u” 


Fucking amazing show. Swearengen may be my favorite TV character ever. 
Rome was &g@ too. 


Troy Barnes 


epairma: 


Abb. 14.5: Ausschnitt aus einem Thread mit einem Online-Forum. Die Verfasser der Postings 1 
und 2 nutzen die Méglichkeit, vorangegangene Postings anderer Urheber ganz oder in Teilen 
zu zitieren. Die Zitate werden vom System automatisch in den Beiträgen reproduziert; dabei 
werden zudem automatisch generierte Sprachbausteine eingefügt („southside said“, 

„derfish said“). Auch die einzelnen Postings nebengestellter Ausschnitte aus den hinterlegten 
Nutzerprofilen der Verfasser wurden vom System automatisch reproduziert. 


schirm wahrnehmbar ist, nicht notwendigerweise mit dem Zeitpunkt 
seiner tatsächlichen Wahrnehmung durch die Adressaten zusammenfällt, 
sichert das Logging der Postings nicht nur die Bearbeitung der zeitlichen 
Zerdehnung zwischen Produktion und Zustellung, sondern zudem die Be- 
arbeitung der Zerdehnung zwischen Zustellung und tatsächlicher Rezep- 
tion. Dass selbst in „synchronen“ Formen wie dem klassischen Chat, in 


Formen als „synchron ohne Synchronisierung“ zu beschreiben. Synchronizität wird durch die- 
sen Vorschlag in zwei Aspekte zerlegt: (i) den Aspekt der zeitgleichen Orientiertheit der Beteilig- 
ten auf die Entwicklung des Kommunikationsgeschehens, die auch der vorwissenschaftlichen 
und alltagssprachlichen Charakterisierung von Chats als „synchronen“ Formen zugrunde liegt; 
(ii) den Aspekt der Alignierung von Verbalisierung, Übermittlung und Verarbeitung, die im Falle 
mündlicher Gespräche vollumfänglich gegeben (i.S.v. der von Auer 2000 beschriebenen 
‚On-line‘-Verbalisierung), im Falle von Chats aber durch eine Zerlegung in eine konsekutive 
Abfolge von Schritten gekennzeichnet ist (Beißwenger 2007: 35-37; Beißwenger 2010: 257-258). 
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Offrande au Saint Sacrement {Quelltext bearbeiten ] 


Dieses Orgelstück kenne ich nicht, da es offensichtlich in keiner Messiaen-Orgel- 
Gesamtaufnahme enthalten ist. Wie ist das zu erklären? Und welcher Art ist das Stück 
(groß, klein; mit gregorianischem Thema?) Humpyard 00:34, 28. Jan. 2008 (CET) 


Das weiss ich natürlich auch nicht. Eine Möglichkeit wäre, es handeit sich um 
Unkenntnis. Vielleicht sind manchmal Titel nicht eindeutig? Vielleicht wird etwas als 
"Orgel-Gesamtaufnahme"” bezeichnet, wenn die Aufnehmer vermuten, es sei 
gesamt? Letzte Idee: Vielleicht hat es der Komponist nicht ausdrücklich für Orgel 
ausgewiesen.- All dies sind nur theoretisierende Denkansatze! --888344 


Oder auch - kucke mal hier: http://www. joergabbing.de/publikationen.htm&# 
888344 


in der Latry-Gesamtaufnahme (DGG) ist das Stück enthalten (CD2), die 
Google-Suche fördert außerdem mehrere Quellen zu Tage, die Partitur 
des Werkes ist zB. bei Leduc erschienen Gruß Akeuk 20:02, 2. Feb. 2008 
(CET) 


Abb. 14.6: Ausschnitt aus einer Wikipedia-Diskussionsseite. Der Grad der Einrückung 
der einzelnen Postings wurde von den Verfassern bei der Eingabe manuell erzeugt. 


denen die Interaktionsbeteiligten zeitgleich auf die Teilhabe an der Weiter- 
entwicklung des Interaktionsgeschehens orientiert sind, Beiträge häufig 
erst im Nachhinein zu ihrer Verfügbarkeit am Bildschirm gelesen werden, 
zeigt Beißwenger (2007). 

- Im Logfile, das als Rezeptionsgrundlage fungiert, erscheinen die Postings 
in einer klaren Abfolge. Diese muss nicht mit der von den Interaktions- 
beteiligten intendierten Handlungsabfolge identisch sein. Die Zerdehnung 
von Produktion und Übermittlung begünstigt, insbesondere in „synchro- 
nen“ Gruppeninteraktionen, die Überkreuzung von Posting-Sequenzen, 
die unterschiedliche Handlungssequenzen realisieren (Herring 1999; 
Storrer 2001). In „asynchronen“ Formen nutzen die Schreiber Möglich- 
keiten des Threadings und der Arbeit mit Zitaten, um die sequenzielle Ein- 
ordnung ihrer Beiträge anzuzeigen und nachvollziehbar an bestimmte 
Positionen der Sequenz anzuknüpfen (z. B. Severinson-Eklundh 2010). 

- Das Logging des Kommunikationsverlaufs am Bildschirm schafft gegen- 
über mündlichen Interaktionen veränderte Bedingungen für den Bezug auf 
frühere Teile der Sequenz: Postings können mehrfach und wiederholt rezi- 
piert werden. Das gilt für medial schriftlich realisierte Postings in gleicher 
Weise wie für Postings, die in Form aufgezeichneter Audioaufnahmen rea- 
lisiert sind (Sprachnachrichten in WhatsApp). Wann ein Posting inter- 
aktional bearbeitet und beantwortet wird, kann flexibler gehandhabt 
werden als im mündlichen Gespräch. In Online-Foren, die über viele Jahre 
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laufen, lässt sich beobachten, dass bisweilen an Postings oder Threads an- 
geknüpft wird, die mehrere Monate oder gar Jahre alt sind. Und selbst in 
Anwendungen wie WhatsApp, die eine „synchrone“ Nutzung erlauben, 
werden Postings nicht immer unmittelbar beantwortet - auch dann nicht, 
wenn sie von den Adressaten unmittelbar nach ihrer Zustellung rezipiert 
wurden. Die Persistenz des Verlaufs erlaubt es vielmehr, die Teilhabe an 
Interaktionen flexibel an das individuelle Zeit- und Aufgabenmanagement 
anzupassen. 

— Der Interaktionsverlauf ist digital gespeichert und mit Standardwerkzeugen 
von Betriebssystemen verwalt- und bearbeitbar: Eigene und fremde Postings 
sowie Teile davon (d.h. auch die darin integrierten Bild-, Ton- und Video- 
dateien) können in die Zwischenablage kopiert und in anderen Kontexten 
reproduziert werden; die am Bildschirm vorgehaltenen Verläufe können in 
Dateien gespeichert und weiterverwendet werden. 

- Neben dem vom Verfasser eingegebenen sprachlichen Inhalt (user generated 
content) können Postings automatisch, d.h. vom System generierte oder 
reproduzierte, Beitragsteile enthalten. Dazu zählen beispielsweise die auto- 
matisch eingefügten Zitate von Postings oder Posting-Teilen anderer 
Schreiber in Abbildung 14.5, im weiteren Sinne aber auch die vom System 
hinzugefügten, im Layout den Beiträgen zugeordneten und textuell und/ 
oder in Form von Grafiken repräsentierten Metadaten zu den Postings und 
ihren Produzenten in den Beispielen 14.1-14.6. 


Daneben weisen einzelne der in den Abbildungen 14.1-14.6 gezeigten Beispiele 
auch Merkmale auf, die nicht generell, sondern nur spezifisch für einzelne 
Kommunikationsumgebungen gelten. Diese Merkmale sollen hier nicht weiter 
thematisiert werden, da bei der Entwicklung eines Basisschemas zur Repräsen- 
tation von Strukturmerkmalen zunächst diejenigen Merkmale im Vordergrund 
stehen, die übergreifend zu einzelnen Kommunikationsumgebungen eine Rolle 
spielen. Das schließt nicht aus, dass auch weitere, spezifischere Merkmale in 
ihm abgebildet werden können oder dass das Schema in einem konkreten 
Projekt in Hinblick auf die speziellen Erfordernisse der technischen Instan- 
ziierung von Interaktion in einzelnen IBK-Umgebungen erweitert werden kann. 
Der Fokus liegt im Folgenden auf der texttechnologischen Modellierung des 
Gemeinsamen und seiner Darstellung in Form einer Extension zu den Guide- 
lines for Text Encoding der TEI. 
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4 Ein Basisschema für die Repräsentation 
internetbasierter Kommunikation in TEI 


Ein Basisschema, das für möglichst viele Projekte sinnvoll ist, eine Interopera- 
bilität mit bestehenden Sprachressourcen gewährleistet und flexibel einsetzbar 
ist, sollte die folgenden Merkmale aufweisen: 

1. Es sollte auf etablierte Repräsentationsstandards für Sprachressourcen im 
Bereich der Korpusliguistik und der Digital Humanities bezogen sein. 

2. Es sollte sich für die Bedürfnisse konkreter Korpusprojekte und Forschungs- 
fragen erweitern lassen, ohne die Bedingung (1) zu verletzen. 

3. Es sollte so allgemein gehalten sein, dass es als Grundlage für die Annota- 
tion in vielen Korpusprojekten nützlich ist. 

4. Es sollte so spezifisch sein, dass es grundlegende strukturelle Besonder- 
heiten von IBK-Daten - insbesondere die charakteristischen Unterschiede 
zur Struktur von redigierten Texten und von Gesprächsverläufen - erfasst. 

5. Es sollte in seinen obligatorischen Strukturelementen weitestgehend auto- 
matisiert aus gesammelten Rohdaten erzeugt werden können. 

6. Es sollte die Erzeugung anonymisierter Sichten auf die Korpusdaten unter- 
stützen. 


Anforderung (1) wird im nachfolgend vorgestellten Schema eingelöst durch die 
Orientierung an den Richtlinien der TEI, die seit 1987 Formate für die Struktur- 
beschreibung textueller Sprachdaten in den Geisteswissenschaften entwickelt. 
Die Vorschläge der TEI, die seit 1994 in Form von Guidelines vorliegen, können 
als ein De-facto-Standard im Bereich der Geisteswissenschaften gelten, der 
einer Vielzahl digitaler Forschungsressourcen zugrunde liegt. Der Standard 
wird von einer breiten Nutzercommunity gepflegt und kontinuierlich weiter- 
entwickelt. Über die Konsistenz der Guidelines wacht ein Technical Council. 
Grundsätzlich kann jeder Interessierte Eingaben für die Weiterentwicklung des 
Standards machen. Zu Themen, denen die TEI-Community in Hinblick auf 
die Pflege und Anpassung der Guidelines besondere Relevanz beimisst, sind 
Special Interest Groups (kurz: SIGs) eingerichtet, die sich mit der Nutzung von 
TEI in einzelnen Anwendungsbereichen oder für bestimmte Textgenres und Kom- 
munikationsbereiche befassen (z.B. TEI for Linguists, Correspondence, Manu- 
scripts, Scholarly Publishing). Seit 2013 gibt es eine SIG Computer-mediated 


25 Die gegenwärtig aktiven SIGs sind auf der Seite http://www.tei-c.org/Activities/SIG/ (letzter 
Zugriff: 8.11. 2017) verzeichnet. 
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Communication (TEI-CMC-SIG), die sich mit der Entwicklung TEI-konformer 
Formate für Sprachressourcen internetbasierter Kommunikation befasst. 

Anforderung (2) wird dadurch gewährleistet, dass TEI die schon erwähnte 
Möglichkeit der customization vorsieht (vgl. Abschnitt 1). Diese erlaubt es, aus 
dem in den TEI-Richtlinien vorgesehenen Inventar an Modellen (Elementklas- 
sen, Elementen, Attributen) Auswahlen zu treffen oder bestimmte Teilinventa- 
re zu unterdrücken, neue Elemente und Attribute hinzuzufügen oder bestehen- 
de Modelle zu ändern. Solange dabei bestimmte Regeln eingehalten werden, 
die sicherstellen, dass die vorgenommenen Änderungen sich konsistent in die 
Architektur des TEI-Frameworks einfügen, stimmt das resultierende Schema 
grundsätzlich mit den TEI-Richtlinien überein. Für die Erzeugung eigener cu- 
stomizations bietet die TEI mit dem Editor Roma sogar ein spezialisiertes Tool 
an.?® 

Da die TEI-Richtlinien bislang keine spezifischen Modelle für die Struktur- 
annotation von IBK-Daten anbieten, arbeitet die TEI-CMC-SIG bei der Entwick- 
lung eines Basisschemas mit der Möglichkeit der customization. Bis dato haben 
Mitglieder der SIG drei Annotationsschemas entwickelt und diese jeweils an 
Korpora getestet. Der Vorteil der Orientierung an einem Standard und dessen 
Erweiterung (per customization) macht die Schemaentwicklung darüber hinaus 
ökonomisch: Diejenigen Teile des Schemas, die für die Repräsentation von 
Korpusdaten benötigt werden, aber keine IBK-spezifischen Merkmale abbilden, 
können aus dem in TEI schon vorhandenen Standardinventar übernommen 
werden; Anpassungen und Erweiterungen sind nur da erforderlich, wo der TEI- 
Standard noch keine geeigneten Lösungen anbietet. Entsprechend stimmen die 
von der SIG entwickelten Schemas in weiten Teilen mit dem TEI-Standard über- 
ein; diejenigen Modelle, die tatsächlich neu eingeführt oder gegenüber dem 
Standard modifiziert werden mussten, bilden nur einen kleinen Teil. 

Die Anforderungen (3), (4) und (5) werden dadurch eingelöst, dass sich das 
Schema auf die Modellierung der Eckpunkte eines Interaktionsformats be- 
schränkt, das vielen Instanziierungen internetbasierter Kommunikation zugrun- 
de liegt, und dass es sich aus Strukturinformation erzeugen lässt, die in den 
Korpus-Ausgangsdaten i.a.R. bereits vorhanden ist. Die Anforderung (6) wird 
eingelöst durch eine Transformation (mindestens) solcher personenbezogener 
Daten, die sich anhand von Strukturmerkmalen in den Ausgangsdaten identi- 
fizieren lassen, in Metadaten. 

Die TEI-CMC-SIG hat in einem iterativen Prozess bislang drei Schemas für 
die Strukturannotation von IBK-Korpora entwickelt. Das erste Schema (Beiß- 


26 http://www.tei-c.org/Guidelines/Customization/use_roma.xml (letzter Zugriff: 8.11. 2017). 
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wenger et al. 2012; „DeRiK-Schema“ ?’) wurde in Zusammenarbeit mit dem Team 
des DWDS-Projekts an der Berlin-Brandenburgischen Akademie der Wissen- 
schaften (BBAW) als Grundlage für die Repräsentation von IBK-Erweiterungen 
für Korpora geschriebener Sprache (Beißwenger & Lemnitzer 2013) konzipiert. 
Das zweite Schema (Chanier et al. 2014; „CoMeRe-Schema“ 7°) wurde als Ergeb- 
nis verschiedener Diskussionen in der neu gegründeten TEI-CMC-SIG und auf 
der Grundlage des DeRiK-Schemas von Thierry Chanier und Kollegen für die 
Repräsentation einer Sammlung von 14 IBK-Korpora zum Französischen ent- 
wickelt (CoMeRe-Korpora). Die dritte Schemaversion (CLARIN-D-Schema) ent- 
stand im Rahmen des CLARIN-D-Kurationsprojekts ChatCorpus2CLARIN, in 
dem das Dortmunder Chat-Korpus in die Korpusinfrastrukturen am IDS und an 
der BBAW integriert und in diesem Zusammenhang in TEI remodelliert wurde 
(Lüngen et al. 2016). Dieses dritte Schema basiert wiederum auf einer Analyse 
des CoMeRe-Schemas und der mit dessen Anwendung gemachten Annotations- 
erfahrungen und baut das Schema für verschiedene Formen schriftbasierter 
IBK weiter aus. 

Im Folgenden beschreibe ich den letzten Stand des Schemas, das CLARIN-D- 
Schema.” Ich stelle einige wesentliche Merkmale vor, die die in Abschnitt 3 
dargestellten Charakteristika schriftbasierter IBK im TEI-Kontext und mit Blick 
auf die oben formulierten Anforderungen umsetzen. Die bei der Entwicklung 
des Schemas in das TEI-Rahmenwerk eingebrachten Modifikationen und Erwei- 
terungen sind in einem ODD-Dokument (One Document Does It All) beschrie- 
ben, das unter derselben Adresse in dem von der TEI vorgegebenen Dokumen- 
tationsformat angeboten wird.*° 

In Bezug auf die Repräsentation von IBK-Daten unterscheide ich im Fol- 
genden die folgenden Datentypen und Strukturebenen:*! 

— Primärdaten: die eigentlichen Nutzdaten, d.h. diejenigen Sprachdaten und 
ihre Struktur, an deren Auswertung Nutzer linguistischer Korpora interes- 


27 https://wiki.tei-c.org/index.php/SIG:CMC/derikschema (letzter Zugriff: 8.11. 2017). 

28 https://wiki.tei-c.org/index.php?title=SIG:CMC/comereschema (letzter Zugriff: 8.11. 12017). 
29 Das vollständige Schema steht unter https://wiki.tei-c.org/index.php?title=SIG:CMC/ 
clarindschema (letzter Zugriff: 8.11. 2017) als Schemaspezifikation in der XML-Schemasprache 
Relax NG zur Verfügung und kann in dieser Form für die Korpusannotation eingesetzt werden. 
An der Entwicklung des Schemas unmittelbar beteiligt waren neben dem Verfasser Axel Herold, 
Harald Lüngen, Angelika Storrer und Eric Ehrhardt. 

30 Zum ODD-Format vgl. Lobin (2010: 110-111). 

31 Für die Unterscheidung von Primärdaten, Metadaten und Annotationen greife ich auf eine 
in der Korpuslinguistik allgemein übliche Differenzierung zurück (vgl. z. B. Storrer 2011: 2018- 
2219, Perkuhn, Keibel & Kupietz et al. 2012: 45, Lemnitzer & Zinsmeister 2015: 13), die Unter- 
scheidung zweier Strukturebenen in den Primärdaten folgt Beißwenger et al. (2012). 
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siert sind. In Bezug auf IBK-Daten geht das vorgestellte Schema davon aus, 

dass es sich bei den Ausgangsdaten, die die Primardaten fiir IBK-Korpora 

bereitstellen, um Dokumente handelt, die eine Abfolge von Postings in einer 
bestimmten Art der Strukturierung enthalten, die von zwei oder mehreren 

Autoren produziert wurden (sogenannte Logfiles oder Mitschnitte). Struk- 

turen in IBK-Primärdaten lassen sich dabei auf zwei Ebenen beschreiben: 

a) auf der Ebene der Makrostrukturen: Darunter verstehe ich die spezi- 
fische Art der Abfolge und Anordnung von Postings in den Ausgangs- 
dokumenten und im Bildschirmprotokoll der Beteiligten. Makrostruk- 
turen werden charakteristischerweise nicht von einem Autor alleine 
hergestellt, sondern ergeben sich aus dem Zusammenspiel von Ver- 
schickungshandlungen zweier oder mehrerer Autoren plus den Auf- 
bereitungs- und Vermittlungsroutinen der zugrunde liegenden Kom- 
munikationstechnologie. 

b) auf der Ebene der Mikrostrukturen: Darunter verstehe ich die Struktur 
von Postings und damit all diejenigen Formen der Strukturierung 
sprachlicher Äußerungen, die der alleinigen Gestaltungshoheit des 
Autors des Postings unterliegen. Mikrostrukturen lassen sich mit 
Blick auf die visuelle Gliederung des Posting-Inhalts und die Integra- 
tion von Medienobjekten beschreiben (Enthält das Posting nur einen 
oder mehrere Absätze? Enthält es Zwischenüberschriften? Ist mit 
Listenformatierungen und Einrückungen gearbeitet? Sind Bilder, 
Audio- oder Videodateien integriert?); Mikrostrukturen können aber 
auch unter textgrammatischem und syntaktischem Aspekt von Interesse 
sein (Welche Formen der Verknüpfung von Sätzen nutzt der Autor? 
Welche syntaktische Struktur weist sein Posting auf?). 

— Metadaten: Daten, die die Primärdaten beschreiben und die benötigt wer- 
den, um die im Korpus dokumentierte Primärdatenstichprobe als solche 
und auch die darin dokumentierte Form der Sprachverwendung (die im 
Falle von IBK-Daten interaktional organisiert ist) zu kontextualisieren. 

— Annotationen: Daten, mit denen Primärdatensegmenten linguistische 
oder Strukturinformationen zugeordnet werden und die im nachfolgend 
beschriebenen Basisschema dazu verwendet werden, Strukturinformation 
auf Makro- und Mikroebene in Form expliziter Beschreibungen zu reprä- 
sentieren. 


4.1 Metadaten und TEI-Header 


Das Schema folgt in seiner Architektur den obligatorischen Strukturvorgaben 
für TEI-Schemas und interpretiert diese IBK-spezifisch. Standardmäßig umfasst 
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jedes TEI-Dokument einen Header, in dem Metadaten zum Dokument erfasst 
werden, gefolgt von der Repräsentation der annotierten Daten. Listing 1 zeigt 
einen Ausschnitt aus der Header-Struktur für ein Dokument aus dem Dortmun- 
der Chat-Korpus. Die Teilstruktur fileDescription (Element fileDesc) erfasst im 
publicationStatement (Element publicationStmt) Angaben zum Anbieter der 
Ressource (im vorliegenden Fall das IDS und die BBAW) und zu den Lizenzbe- 
dingungen, unter denen die Ressource genutzt werden darf (CC BY 4.0) sowie 
in der sourceDescription (Element sourceDesc) Angaben zur Herkunft der Da- 
ten (in diesem Fall zur Chat-Umgebung, in der das enthaltene Logfile aufge- 
zeichnet wurde, sowie zu Datum und Uhrzeit der Aufzeichnung). 


Listing 1: Ausschnitt 1 (gekürzt) aus dem TEI-Header für ein Dokument aus 
dem Dortmunder Chat-Korpus in CLARIN-D: 
<TEI xmlns="http: //www. tei-c.org/ns/1.0"> 
<teiHeader> 
<fileDesc> 
<publicationStmt> 
<publisher/> 
<pubPlace/> 
<idno>1204009</idno> 
<distributor> 
CLARIN centre Institut für Deutsche Sprache, Mannheim 
and CLARIN centre Berlin-Brandenburgische Akademie der 
Wissenschaften 
</distributor> 
<date>2016</date> 
<availability> 
<licence target="https://creativecommons.org/ licen 
ses/by/4.0/">CC BY 4.0. Legal restrictions may arise 
from data protection legislation.</licence> 
</availability> 
</publicationStmt> 
<sourceDesc> 
<recordingStmt> 
<recording> 
<equipment> 


32 Definition und Inhaltsmodell sämtlicher Elemente aus dem TEI-Standard lassen sich in 
den Guidelines nachschlagen (TEI-P5). 
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<p>plattformName=<name type="OTH">L_CHATPLATFORM 
NAME_ ]</name></p> 
<p>plattformURL=<ref type="URL">L_WWWURL_]</ref> 
</p> 
</equipment> 
<respStmt> 
<persName xml:id="f1204009.p1">unknown</persName> 
<resp>recording</resp> 
</respStmt> 
<date>2005-01-11</date> 
<time from="22:07:00" to="22:59:00"/> 
</recording> 
</recordingStmt> 


</fileDesc> 


Listing 2 zeigt einen weiteren Ausschnitt aus dem TEI-Header. Die Teilstruktur 
profileDescription (Element profileDesc) klassifiziert den Dokument-Inhalt mit 
Referenz auf ein externes Klassifikationsschema. Die Benennung des Elements 
textClass zeigt, dass TEI urspriinglich fiir die Annotation redigierter, schrift- 
licher Texte entwickelt wurde, fiir die die Zuordnung zu einer Textsorte inten- 
diert ist. Im Falle des Chat-Korpus wurde anstelle eines Textklassifikations- 
schemas eine Klassifikation der enthaltenen Logfiles nach gesellschaftlichen 
Handlungsbereichen und auf zweiter Klassifikationsebene nach Chat- 
Plattformen vorgenommen. Unter der im Listing referenzierten URL ist das fiir 
das Korpus verwendete Klassifikationsschema zentral hinterlegt. Durch Aufruf 
der target-URL lasst sich entnehmen, dass das im Dokument beschriebene Log- 
file der Hauptklasse ,,Professionelle Chats: Chat-Veranstaltungen im Hoch- 
schulkontext, Chat-Beratung, Chats im Medienkontext“ sowie innerhalb dieser 
Klasse der Subklasse „Beratung“ zugeordnet ist und dass das Logfile einem 
Beratungsangebot mit dem Thema ,,Beratung durch eBay-Expertin“ entstammt. 

Die Teilstruktur participationDescription (Element particDesc) beschreibt 
gemäß Definition „the identifiable speakers, voices, or other participants in any 
kind of text or other persons named or otherwise referred to in a text, edition, 
or metadata“; für das Chat-Korpus wird das Element fiir die Hinterlegung von 
Informationen zu den Chat-Beteiligten adaptiert. Fiir jeden Beteiligten gibt es 
in der listPerson einen Eintrag mit eindeutiger ID, dem ein Teilnehmername, 
eine Teilnehmerrolle (hier: system, expert, client) sowie eine Angabe zum 
(erschlossenen oder vermuteten) biologischen Geschlecht (sex) zugeordnet ist. 
Da das Dortmunder Chat-Korpus fiir die Integration in CLARIN-D anonymisiert 
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wurde, sind die ursprünglichen Teilnehmernamen im Listing durch Kategorien- 
labels ersetzt (zur Anonymisierung vgl. Beißwenger et al. 2017b). Die ID ist 
wichtig, um im beschriebenen Logfile jedes einzelne Posting per ID-Referenz 
(vgl. Listing 3, Werte des Attributs @who) mit einer eindeutigen Autorenzuord- 
nung versehen zu können. Die Trennung der Angaben zu den Interaktionsbe- 
teiligten vom eigentlichen Logfile und die Referenzierung über IDs hat zwei 
Vorteile: Zum einen (1) vermeidet sie die redundante Wiederholung immer wie- 
der derselben Beteiligteninformation bei jedem der von diesem Beteiligten pro- 
duzierten Posting; zum anderen (2) ermöglicht sie bei Korpora, bei denen die 
Autorennamen nicht anonymisiert wurden, die Erzeugung anonymisierter 
Sichten, insofern sämtliche Metadaten zu den Beteiligten (hier: Name, Rolle 
und Geschlecht) einfach vom Logfile abgetrennt werden können; anhand der 
in den einzelnen Postings angegebenen Beteiligten-IDs ist in diesem Fall eine 
Unterscheidung der Beteiligten trotzdem noch möglich. 

Im Falle des Chat-Logfiles sind die Informationen, die in der listPerson für 
die einzelnen Beteiligten gegeben werden, recht rudimentär. Sie lassen sich aber 
beliebig ausbauen und erweitern, beispielsweise um Angaben, die aus den 
Benutzerprofilen der Beteiligten extrahiert wurden (was z.B. im Falle von Online- 
Foren und Tweets relevant ist), oder um die Inhalte von Benutzersignaturen, die 
z.B. in Wikipedia-Diskussionen und in Foren den Postings der Beteiligten als 
automatisch aus Templates generierte Textbausteine beigestellt werden. 

Die timeline in Listing 2 verzeichnet sämtliche für die Repräsentation des 
Logfiles relevante Zeitpunktangaben. Diese sind in den Ausgangsdaten den 
einzelnen Postings typischerweise in Form von sogenannten Timestamps 
(Zeitstempeln) zugeordnet. Die Erfassung als Teil des Headers erlaubt die Reprä- 
sentation der zeitlichen Struktur an zentralem Ort und in einem einheitlichen 
Format, während die Darstellung von Zeitpunktangaben in den Timestamps 
innerhalb desselben Korpus (z.B. in Chat-Logfiles aus verschiedenen Quellen) 
im Format variieren kann (z.B. „15. Juli 2017, 14:30 Uhr“ vs. „Sonntag, 
2:30 p.m.“). Die einzelnen Postings sind den in der timeline beschriebenen Zeit- 
punktangaben (Instanzen des Elements when) über ID-Referenzen zugeordnet 
(vgl. Listing 3, Werte des Attributs @synch). 


Listing 2: Ausschnitt 2 (gekürzt) aus dem TEI-Header für ein Dokument aus 
dem Dortmunder Chat-Korpus in CLARIN-D: 
<profileDesc> 
<textClass> 
<catRef scheme="http://corpora.ids-mannheim.de/ 
taxonomies/taxonomy-handlungsbereiche.tei. 
xml#handlungsbereiche" 
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target="http://corpora. ids-mannheim. de/taxonomies/ 
taxonomy-handlungsbereiche. tei. xml#h1204000"/> 
</textClass> 
<particDesc> 
<listPerson> 
<person role="system" xml: id="f1204009.A01_System"> 
<persName type="nickname">system</persName> 
<sex evidence="estimated">system</sex> 
</person> 
<person role="expert" xml: id="f1204009.AQ2"> 
<persName type="nickname">[_FEMALE-EXPERT-AQ@2_]</ 
persName> 
<sex evidence="estimated">female</sex> 
</person> 
<person role="client" xml: id="f1204009.AQ3"> 
<persName type="nickname">L_MALE-CLIENT-AQ@3_ ]</ 
persName> 
<sex evidence="estimated">male</sex> 
</person> 
</listPerson> 
</particDesc> 
<textDesc> 
<interaction> 
<timeline> 
<when absolute="22:07:00" xml:id="f1204009.t001"/> 
<when absolute="22:08:00" xml:id="f1204009.t002"/> 
<when absolute="22:09:00" xml:id="f1204009.t003"/> 
<when absolute="22:10:00" xml:id="f1204009.t004"/> 
<when absolute="22:11:00" xml:id="f1204009.t005"/> 
<when absolute="22:12:00" xml:id="f1204009.t006"/> 
<when absolute="22:13:00" xml:id="f1204009.t007"/> 
<when absolute="22:14:00" xml:id="f1204009.t008"/> 
<when absolute="22:15:00" xml:id="f1204009.t009"/> 
<when absolute="22:16:00" xml:id="f1204009.t010"/> 


</timeline> 
</interaction> 
</textDesc> 
</profileDesc> 
</teiHeader> 
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Die Struktur der in den Listings 1 und 2 abgebildeten Ausschnitte aus dem TEI- 
Header entspricht dem TEI-Standard. Einige Elemente wurden, wie aufge- 
zeigt, allerdings IBK-spezifisch reinterpretiert. Konkrete Anderungen des TEI- 
Formats gegeniiber dem Standard waren auf Ebene der Strukturannotation 
des eigentlichen Logfiles erforderlich. Hier wurden ganz zentral Lösungen (1) 
für die Repräsentation von Postings und (2) für die Beschreibung von IBK- 
Makrostrukturen (Logfiles, Threads) benötigt. Diese Lösungen im CLARIN-D- 
Schema werden im Folgenden erläutert. 


4.2 Annotation von Makro- und Mikrostrukturen 


Die TEI-Guidelines umfassen ausgearbeitete Module für die Annotation von 

Strukturen in redigierten Texten und für die Annotation der Struktur tran- 

skribierter Gespräche. In Bezug auf die Frage, wie sich IBK-Strukturen sinnvoll 

in TEI repräsentieren lassen, ist zunächst zu klären, ob sich diese Strukturen 
ggf. mit in TEI bereits vorhandenen Modellen sinnvoll darstellen lassen. Drei 

Modellierungsoptionen aus dem TEI-Standard bieten sich grundsätzlich an 

und sind zu diskutieren: 

- Durch die Brille redigierter Texte betrachtet könnten die Primärdaten von 
IBK-Korpora (die in Dokumenten gespeicherten Logfiles) als Texte betrachtet 
werden, die aus einer Abfolge von Einheiten bestehen, die durch Layout- 
merkmale voneinander abgrenzbar sind und von verschiedenen Autoren 
verfasst wurden. Der Vorteil einer Entscheidung für die Beschreibung von 
IBK-Strukturen mit den TEI-Modellen für Textstrukturen läge darin, dass 
für die Beschreibung von IBK-Mikrostrukturen - z.B. die Gliederung kom- 
plexer Foren-Postings oder von Einträgen auf Wikipedia-Diskussionsseiten — 
in TEI ein ausgearbeitetes Inventar an Elementen bereits zur Verfügung 
stünde. Der Nachteil der damit einhergehenden Beschreibung von IBK- 
Verläufen als einer Form von Text wäre der, dass die Gliederung eines 
monologischen Textes (in Abschnitte und Absätze, TEI-Elemente <div> 
und <p>) typischerweise von einer Autor-Instanz konzipiert und verant- 
wortet wird, während es IBK aufgrund ihres interaktionalen Charakters 
gerade zentral ist, dass die entstehenden Makrostrukturen sich - ähnlich 
wie in mündlichen Gesprächen - aus dem Zusammenwirken vieler ergeben 
(unähnlich zu mündlichen Gesprächen spielt, wie oben schon bemerkt, 
dabei aber auch die Technologie eine nicht unwesentliche Rolle). 

- Durch die Brille mündlicher Gespräche betrachtet könnten Postings als 
utterances aufgefasst und IBK-Makrostrukturen — analog zu Gesprächs- 
Transkripten - als Abfolgen von utterances (TEI-Element <u>) beschrieben 
werden. Der Vorteil einer solchen Modellierung des Gegenstandes wäre die 


Internetbasierte Kommunikation und Korpuslinguistik —— 337 


Nähe des Modells zur prototypischen Form zwischenmenschlicher Inter- 
aktion. Der Nachteil bestiinde zum einen darin, dass utterances (a) nicht 
als schriftliche Äußerungen konzipiert sind und (b) dass Postings sich 
hinsichtlich der fiir sie charakteristischen, konsekutiven Abfolge von Ver- 
balisierung, Ubermittlung und adressatenseitiger Verarbeitung (vgl. Ab- 
schnitt 3) fundamental anders verhalten als interaktionale miindliche Au- 
ßerungen. Das Konzept der utterance müsste so umfassend reinterpretiert 
werden, dass es fiir eine distinktive Erfassung von Turns in mündlicher 
Interaktion nicht mehr brauchbar wäre. Ebenso wie die Möglichkeit der 
Beschreibung von Postings als Textgliederungen (Textabschnitte oder 
Absätze) bedeutete eine Beschreibung von Postings als utterances eine un- 
zulässige Verschleierung zentraler Charakteristika der Interaktionskonsti- 
tution in IBK. 

— Durch die Brille des TEI-Modells für performance texts, das für die Struktur- 
annotation von Dramentexten konzipiert ist, könnten Postings als speeches 
(TEI-Element <sp>) aufgefasst werden: <sp> beschreibt „an individual 
speech in a performance text, or a passage presented as such in a prose or 
verse text“. Tatsächlich ist das Element <sp> das einzige TEI-Element, das 
für die Repräsentation interaktionaler Äußerungen vorgesehen ist, die 
primär (und nicht wie utterances in transkribierten Gesprächen erst durch 
sekundäre Verschriftung) medial schriftlich realisiert sind. Auch dieses 
Element scheidet aber aus naheliegenden Gründen für die Repräsentation 
von IBK-Strukturen aus: speeches beschreiben keine authentischen Sprach- 
äußerungen und die durch speeches konstituierten Makrostrukturen sind -— 
unter Produktionsaspekt monologisch — von einer einzigen Autor-Instanz 
konzipiert. 


Im vorgestellten Schema wie auch schon in den beiden Vorgängerschemas 
haben wir uns daher dafür entschieden, für die Annotation von Postings per 
customization ein eigenes TEI-Element <post> einzuführen und dieses mit 
einem Inhaltsmodell auszustatten, das sowohl die Gemeinsamkeiten, als auch 
die charakteristische Differenz einerseits zu Gliederungseinheiten in monolo- 
gischen Texten - also zu Einheiten, die im TEI-Universum üblicherweise als 
<div> oder <p> repräsentiert werden - als auch andererseits zu Sprecher- 
beiträgen in mündlichen Interaktionen - in TEI mit <u> dargestellt - zur 
Geltung bringt. Eventuelle Gemeinsamkeiten oder Unterschiede zu speeches 
werden nicht weiter verfolgt. 

Das Element <post> und die durch Abfolgen von <post>-Instanzen kon- 
stituierten IBK-Makrostrukturen weisen die folgenden Merkmale auf: 
-  <post> ist konzipiert als ein Element vom Typ model.divPart. Eine Anfor- 

derung bei der customization besteht darin, dass neu hinzugefügte, im 
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Standard nicht enthaltene Elemente in das Elementklassensystem des TEI- 
Rahmenwerks eingeordnet werden müssen. Damit wird beschrieben, wie 
sich ein neu hinzugefügtes Element zu bereits vorhandenen Elementen 
und ihren Inhaltsmodellen verhält, welche Kind-Elemente und Attribute 
es von vorhandenen Modellen erbt. Durch die Konzeption von <post> als 
model.divPart wird ausgesagt, dass Postings in formaler Hinsicht Ähnlich- 
keiten mit Einheiten der Textgliederung aufweisen: In einem gespeicherten 

Logfile sind sie typischerweise als Gliederungseinheiten zu erkennen; an- 

hand von Layouteigenschaften lassen sich Logfiles damit weitgehend auto- 

matisiert in Einheiten des Typs <post> zergliedern (vgl. die o.a. Anforde- 

rung (5)). 

- Zugleich wird über das Attribut @who die Möglichkeit geschaffen, jedem 
Posting einen individuellen Autor zuzuordnen. Damit wird dargestellt, 
dass die IBK-Makrostruktur, die sich als Abfolge von Postings darstellt, 
nicht das Ergebnis einer von einer einzelnen Autor-Instanz verantworteten, 
monologischen Strukturbildung ist; stattdessen wird sie als interaktionale 
Struktur konzipiert. Dieses Merkmal teilen IBK-Makrostrukturen, vermittelt 
über die Konzeption des Elements <post>, mit mündlichen Gesprächen. 

— Die Makrostruktur als solche wird durch das Element <div> aus dem TEI- 
Standard dargestellt. <div> kann Textgliederungen unterschiedlichster Art 
beschreiben. In den TEI-CMC-Schemas wird <div> reinterpretiert als eine 
Gliederungseinheit, die Sequenzen aus zwei oder mehr Instanzen des 
Elements <post> bündelt. Elemente des Typs <div> lassen sich über ein At- 
tribut @type subklassifizieren, für das als Wertbelegungen logfile und thread 
empfohlen werden, um verschiedene Typen von IBK-Makrostrukturen zu 
unterscheiden. 

- Das Element <post> lässt sich über eine Reihe von neu eingeführten oder 
für die Repräsentation von IBK adaptierten Attributen subklassifizieren 
(u.a.): 

a) Mit @type werden verschiedene Typen von Postings unterschieden: 
„standard“-Postings in direkter Rede sowie Postings vom Typ „event“, 
mit denen - insbesondere in Chats - eine Aussage aus „Regisseurs- 
sicht“ über reale oder spielerisch vollzogene Aktivitäten eines Inter- 
aktionsbeteiligten formuliert wird („FrankieABC holt sich mal nen 
Kaffee“, „FrankieABC betritt den Raum“). 

b) @replyTo ermöglicht (optional) eine weitergehende Beschreibung der 
sequenziellen Vernetzung des Postings mit anderen Postings durch 
Verweis auf die entsprechenden Posting-IDs. Die Realisierung von 
ReplyTo-Beziehungen in der Annotation ist sowohl automatisiert als 
auch manuell denkbar: automatisiert durch automatische Auswertung 
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von Adressierungselementen oder Zitationen in der Mikrostruktur der 
Postings (vorausgesetzt, die entsprechenden Elemente sind auf der 
Ebene der Mikrostruktur ihrerseits annotiert); manuell als Ergebnis einer 
qualitativen Analyse von Postings auf dem Hintergrund ihres sequen- 
ziellen Kontexts. 

c) @auto gibt an, ob ein Posting automatisch generiert wurde. Typische 
Fälle sind sogenannte „Systemmeldungen“ in Chats, mit denen Resul- 
tate von Nutzereingaben, die nicht unmittelbar als Postings intendiert 
sind, gemeldet werden (z.B. „Friede23 betritt den Raum“). Für quan- 
titative Korpusuntersuchungen ist es wichtig, solche Postings bei der 
Korpusanalyse ausfiltern zu können, da ihre Inhalte nicht auf Verba- 
lisierungen von menschlichen Interaktionsbeteiligten zurückgehen, 
sondern aus von den Programmierern im System vordefinierten Temp- 
lates erzeugt wurden. Das muss nicht nur auf Posting-Ebene der Fall 
sein; auch auf der Mikroebene von Postings können Textbausteine 
dieser Art vorkommen, beispielsweise in Einleitungen zu Zitatblöcken 
in Online-Forenbeiträgen, die über die automatische Zitierfunktion 
erzeugt wurden. 


Listing 3 zeigt einen Ausschnitt aus einem Korpusdokument mit drei vollstän- 
dig annotierten <post>-Instanzen, die in einem <div>-Element vom Typ logfile 
gebündelt sind. Die Werte zu den Attributen @who und @synch referenzieren 
die IDs von Einträgen in der listPerson und in der timeline aus dem TEI-Header 
(vgl. Listing 2 und zugehörige Erläuterungen). Auf der Mikroebene der drei ab- 
gebildeten Postings ist zudem das Ergebnis einer automatischen Part-of-speech- 
Annotation und einer Lemmatisierung, die mit den in Horbach et al. (2014) 
beschriebenen Sprachverarbeitungswerkzeugen erzeugt wurden, in Form einer 
Inline-Annotation in die TEI-Repräsentation integriert. Dazu wurde das Ele- 
ment <w> (word) aus dem TEI-Standard als Element für die Beschreibung mor- 
phosyntaktischer Informationen adaptiert. Die Part-of-speech-Informationen 
folgen dem für IBK-Korpora erweiterten STTS-Tagset nach Beißwenger et al. 
(2015). 


Listing 3: Ausschnitt aus dem TEI-Body für ein Dokument aus dem Dortmun- 
der Chat-Korpus in CLARIN-D: 
<div type="logfile"> 
<post auto="false" rend="color:black" synch="#f1204909.t049" 
type="standard" who="#f1204009.A02" xml: id="f1204009.m187"> 
<time> 22:46 </time> 
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<anchor type="sentence_start"/> 


<w 


<w 


<w 


<w 


<w 


<w 


<w 


<w 


<w 


<w 


<w 


</post> 


lemma="ich" type="PPER" xml: id="f1204009.m187. 
t1">Ich</w> 

lemma="wünschen" type="VVFIN" xml:id="f1204009.m187. 
t2">wünsche</w> 

lemma="Sie|sie" type="PPER" xml:id="f1204009.m187. 
t3">Ihnen</w> 

lemma="alle" type="PIAT" xml:id="f1204009.m187. 
t4">alles</w> 

lemma="Gute" type="NN" xml:id="f1204009.m187. 
t5">Gute</w> 

lemma="für" type="APPR" xml:id="f1204009.m187. 
t6">für</w> 

lemma="ihr" type="PPOSAT" xml:id="f1204009.m187. 
t7">Ihre</w> 

lemma="Verhandlung" type="NN" xml:id="f1204009.m187. 
t8">Verhandlungen</w> 

lemma="mit" type="APPR" xml:id="f1204009.m187. 
t9">mit</w> 

lemma="die" type="ART" xml:id="f1204009.m187. 
t10">dem</w> 

lemma="DPD" type="NN" xml: id="f1204009.m187. 
t11">DPD</w> 


<post auto="false" rend="color:black" synch="#f1204009.t040" 
type="standard" who="#f1204009.AQ2" xml: id="f1204009.m188"> 
<time> 22:46 </time> 
<anchor type="sentence_start"/> 


<w 


<w 


<w 


<w 


<w 


<w 


lemma="und" type="KON" xml: id="f1204009.m188. 
t1">und</w> 

lemma="wünschen" type="VVFIN" xml: id="f1204009.m188. 
t2">wünsche</w> 

lemma="Sie|sie" type="PPER" xml:id="f1204009.m188. 
t3">Ihnen</w> 

lemma="alle" type="PIAT" xml:id="f1204009.m188. 
t4">alles</w> 

lemma="Gute" type="NN" xml:id="f1204009.m188. 
t5">Gute</w> 

lemma="für" type="APPR" xml:id="f1204009.m188. 
t6">für</w> 
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<w lemma="die" type="ART" xml: id="f1204009.m188. 
t7">den</w> 
<w lemma="zukünftig" type="ADJA" xml:id="f1204009.m188. 
t8">zukünftigen</w> 
<w type="NN" xml:id="f1204009.m188. 
t9">Online-Handel</w> 
<w lemma="!" type="$." xml:id="f1204009.m188. 
t10">!</w> 
</post> 
<post auto="false" rend="color:black" synch="#f1204009.t040" 
type="standard" who="#f1204009.A03" xml: id="f1204009.m189"> 
<time> 22:46 </time> 
<anchor type="sentence_start"/> 
<w lemma="ja" type="PTKANT" xml: id="f1204009.m189. 
t1">Ja</w> 
<w lemma="," type="$," xml: id="f1204009.m189. 
t2">,</w> 
<w lemma="die" type="PDS" xml: id="f1204009.m189. 
t3">das</w> 
<w lemma="können" type="VMFIN" xml: id="f1204009.m189. 
t4">kann</w> 
<w lemma="ich" type="PPER" xml: id="f1204009.m189. 
t5">ich</w> 
<w lemma="gebrauchen" type="VVINF" xml: id="f1204009. 
m189.t6">gebrauchen</w> 
<w type="EMOASC" xml: id="f1204009.m189.t7">:-(</w> 
</post> 


</div> 


Im Projekt ChatCorpus2CLARIN wurde das vorgestellte Schema fiir die Remodel- 
lierung des kompletten Dortmunder Chat-Korpus (1 Million Tokens) in TEI 
angewendet (Liingen et al. 2016). Neben Chat-Daten flossen in die Entwick- 
lung des Schemas Analysen und Annotationsexperimente zu einem Datenset 
mit Stichproben weiterer IBK-Formen ein (Wikipedia-Diskussionsseiten, 
WhatsApp-Interaktionen, Newskommunikation, Tweets). Die Vorgängerversion 
von Beißwenger et al. (2012) wurde von Margaretha & Lüngen (2014) für die 
Repräsentation der Posting-Struktur im Wikipedia-Diskussionsseiten-Korpus in 
DEREKO adaptiert. Die Vorgängerversion von Chanier et al. (2014) lag der 
Strukturannotation von vierzehn französischen IBK-Korpora zu neun unter- 
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schiedlichen IBK-Formen zugrunde (u.a. SMS, Wikipedia-Diskussionen, Tweets, 
Weblogs, E-Mails, Foren, Chats). Die aktuelle Schemaversion wird gegenwärtig 
an der Universität Gießen für die Strukturannotation eines Scienceblog-Korpus 
eingesetzt (Grumt Suärez, Karlova-Bourbonus & Lobin 2016). In den genannten 
Projekten hat sich das Basisschema als praktikabel erwiesen. Im Rahmen von 
ChatCorpus2CLARIN hat die Verwendung des Schemas eine Integration der 
Ressource in vorhandene Korpussammlungen zur geschriebenen deutschen 
Sprache ermöglicht, die bereits in Standard-TEI repräsentiert sind (DeReKo, 
DWDS). 


5 Fazit und Ausblick 


Die Sprachressourcen-Infrastruktur der Zukunft wird IBK-Korpora umfassen, die 

- eine breite Zahl von IBK-Genres und Sprachen abdecken, 

- frei für Forschung und Lehre zur Verfügung stehen, getreu dem Motto der 
europäischen Sprachressourcen-Infrastruktur-Initiative CLARIN „Sprach- 
ressourcen für alle“ (Common Language Resources), 

- für linguistische Analysezwecke aufbereitet, d.h. um linguistische Struk- 
turannotationen angereichert und durch Metadaten erschlossen sind, 

- in Übereinstimmung mit Standards im Bereich der Digital Humanities 
repräsentiert sind, 

- interoperabel sowohl untereinander als auch mit Korpora anderen Typs 
(Textkorpora, Korpora gesprochener Sprache) sind und sich daher mit den- 
selben Korpusrecherchewerkzeugen vergleichend mit anderen Korpora 
auswerten lassen. 


Diese Vision ist nicht unrealistisch: In einer wachsenden Zahl von Projekten 
zu unterschiedlichen Sprachen entstehen derzeit Korpora zur internetbasierten 
Kommunikation und werden Lösungen für die mit diesem Korpustyp verbun- 
denen Desiderate entwickelt. Standardisierungs- und Infrastrukturinitiativen 
im Bereich der Digital Humanities haben den Bedarf an Forschungsressourcen 
zur internetbasierten Kommunikation erkannt und unterstützen die Entwick- 
lung von Lösungen, um sie in die Ressourcenlandschaft einzugliedern und mit 
existierenden Ressourcen zu vernetzen. 

Ein wichtiger Baustein beim Aufbau interoperabler IBK-Korpora ist ein 
Standard für die Repräsentation von IBK-Daten. Die TEI bietet ein flexibles 
Rahmenwerk, um einen solchen Standard zu entwickeln. Die von der TEI-CMC- 
SIG vorgelegten Entwürfe stehen als vollständige TEI-Schemas zur Verfügung, 
wurden begleitend zu ihrer Entwicklung in verschiedenen Korpusprojekten er- 
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probt und können von jedermann für die Annotation eigener Korpora genutzt 
werden. Nach wie vor handelt es sich bei diesen Schemas um customizations: 
Sie sind mit dem TEI-Standard vollumfänglich kompatibel, enthalten aber den- 
noch einzelne Modelle, die selbst nicht Teil des Standards sind. Ein wichtiger 
nächster Schritt in der Arbeit der CMC-SIG, in der Akteure von Korpusprojekten 
zu unterschiedlichen Sprachen mitwirken, besteht daher darin, aus den bis- 
lang vorgelegten customizations und den mit ihrer Anwendung gemachten 
Erfahrungen Eingaben für den TEI-Standardisierungsprozess zu formulieren. 

Ein Standard für die Repräsentation von IBK muss sich notwendigerweise 
auf die Bereitstellung von Modellen beschränken, die basale Interaktionsfor- 
mate darstellbar machen, die in vielen Kommunikationsumgebungen im Inter- 
net eine Rolle spielen und die sich als relativ stabil gegenüber dem bestän- 
digen technologischen Wandel erweisen. Das in diesem Beitrag beschriebene 
Posting-basierte Interaktionsformat, das zahlreichen Formen internetbasierter 
Kommunikation zugrundeliegt, ist ein Beispiel für ein solches basales Format. 
In einem weiteren Schritt wurde gezeigt, wie sich dieses Format mit dem ak- 
tuellen Schemaentwurf der TEI-CMC-SIG in einer XML-Repräsentation darstel- 
len lässt, die mit dem TEI-Standard kompatibel ist. Eine künftige Aufgabe der 
CMC-SIG wird es sein, dieses Basisformat, das vor allem auf schriftbasierte For- 
men internetbasierter Kommunikation fokussiert, um Modelle für die Reprä- 
sentation von Daten aus multimodalen IBK-Umgebungen zu erweitern. Erste 
Ansätze dafür, wenn auch im vorliegenden Beitrag nicht näher behandelt, sind 
im CoMeRe-Schema (Chanier et al. 2014) angelegt und wurden im CLARIN-D- 
Schema fortgeschrieben. Ein drittes wichtiges Desiderat stellt die Anpassung 
von Schemata für die Erfassung von Metadaten für den Bereich der IBK dar: 
Gerade weil sich Kommunikationstechnologien und -umgebungen beständig 
wandeln, müssen Beschreibungen zur Struktur und zum Funktionsumfang von 
Kommunikationsumgebungen, aus denen Daten erhoben worden, in einer Wei- 
se erfasst und repräsentiert werden, dass Nutzer der entsprechenden Korpora in 
10 oder 20 Jahren, möglicherweise auch schon in 3 Jahren, noch rekonstruieren 
können, welche technologischen Rahmenbedingungen die sprachliche Gestal- 
tung von Interaktion, so wie es sich in den auch Daten zeigt, beeinflusst haben. 

Ein Standard für die Repräsentation und Strukturannotation stellt dabei 
letzten Endes nur einen Baustein für die Verbesserung der Ressourcenlage in 
Bezug auf die Domäne der internetbasierten Kommunikation dar. Um die als 
Vision skizzierte IBK-Korpuslandschaft der Zukunft zu realisieren, müssen 
Innovationen bei der sprachtechnologischen Verarbeitung von IBK-Daten und 
bei der Anpassung von Werkzeugen für die Korpusrecherche und -analyse, best 
practices für die Adressierung juristischer und forschungsethischer Fragen bei 
der Datenerhebung und -dokumentation sowie Lösungen für die Anonymi- 
sierung der Korpusdaten als weitere Bausteine hinzutreten. 
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Die Korpora internetbasierter Kommunikation von morgen bilden einen 
(möglicherweise bedeutsamen) Teil der kulturellen Überlieferung des Alltags- 
sprachgebrauchs von heute für die Sprachhistoriker von tibermorgen.* Die da- 
raus resultierenden Anforderungen an die Bereitstellung und Repräsentation 
von Korpora ist damit nicht nur gegenwartsbezogen, sprachen- und domänen- 
übergreifend, sondern auch diachron bezogen eine wichtige Aufgabe bei der 
Arbeit an der Sprachressourceninfrastruktur der Zukunft. 
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Gerhard Heyer, Gregor Wiedemann und Andreas Niekler 
15 Topic-Modelle und ihr Potenzial fiir 
die philologische Forschung 


Abstract: Statistische Analyseverfahren, die über das bloße Auszählen von 
Sprachdaten hinausgehen, gewinnen in der Korpuslinguistik zunehmend an 
Bedeutung. Der Beitrag behandelt das sogenannte Topic Modelling als eine be- 
sonders prominente Klasse statistischer Verfahren. Im Mittelpunkt steht der 
grundlegende Modellierungsansatz von Topic-Modellen, der am Beispiel der 
Latent Dirichlet Allocation (LDA) präsentiert wird. Beispielanwendungen auf 
verschiedenen Textquellen werden vorgestellt und dabei auch die Aspekte 
Reproduzierbarkeit und Reliabilität der Ergebnisse diskutiert. 


Keywords: Architekturen, Evolutionäre Algorithmen, Forschungswerkzeuge, 
Texttechnologie 


1 Einleitung 


Im fortgeschrittenen Zeitalter der Digitalisierung sind über die letzten Jahr- 
zehnte die uns zur Verfügung stehenden digitalen Textquellen in Größen- 
ordnungen gewachsen, die sich nur noch schwer fassen lassen. Dies betrifft 
sowohl die Retro-Digitalisierung von zunächst als Druckversion erschienenen 
Texten, als auch neue, primär oder ausschließlich für das digitale Medium er- 
stellte Texte, sogenannte born digital documents, wie etwa Microblogs oder 
Texte in sozialen Netzwerken. Aufsehen erregte 2011 das Projekt Culturomics, 
für das von Geisteswissenschaftlern in Zusammenarbeit mit Google ein digi- 
tales Korpus aus Millionen von Büchern, ca. 4% aller jemals gedruckten Titel, 
erstellt wurde (Michel et al. 2011). Auch rein deutsche digitale Textsammlun- 
gen wie das Deutsche Textarchiv mit ca. 145 Millionen beziehungsweise das 
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Deutsche Referenzkorpus mit ca. 31 Milliarden laufenden Wortformen haben 
mittlerweile einen beachtlichen Umfang erreicht. Die zeitgenössische Quellen- 
lage dieses „digitalen Überflusses“ eröffnet den Sprach- und Literaturwissen- 
schaften nicht nur neue Möglichkeiten empirischen Forschens, sie zwingt sie 
gerade dazu, wenn die mühsam aufgebauten digitalen Äquivalente des Archivs 
nicht in ähnlicher Weise verstauben sollen, wie ihre analogen Vorgänger. Diese 
Problematik aufgreifend fragte der Altphilologe Gregory Crane (2006): „What 
do you do with a million books?“ Neben der digitalen Aufbereitung für Suche 
und Darstellung einzelner Werke liegt die digitale, computergestützte Aus- 
wertung ganzer Kollektionen als Antwort nahe. 2007 formulierte der Italiener 
Franco Moretti in diesem Sinne sein Forschungsprogramm des Distant Reading 
aus (2007). Anstelle einen kleinen Korpus nahezu willkürlich selektierter Klas- 
siker immer und immer wieder durch intensives Lesen zu studieren, sollten 
sich Literaturwissenschaftler der „Weltliteratur“ annehmen, in dem sie viele 
tausend Werke gleichzeitig und aus gewissem Abstand vergleichend unter- 
suchen. Für Moretti war klar, dass dies nur mit (text-)statistischen Verfahren 
und computergestützten Visualisierungen gelingen kann. 

Seit einigen Jahren nun, in denen die Digital Humanities erblühen, führt 
die digitale Quellenlage Literatur- und Sprachwissenschaftler, (Computer-)Lin- 
guisten und Informatiker enger zusammen in ihren Bemühungen, den sehr 
großen Textmengen Herr zu werden. Grundlage dafür sind neben den in der 
Syntaxanalyse traditionell weit verbreiteten musterbasierten Ansätzen ins- 
besondere statistische Modelle und Verfahren für die automatische und semi- 
automatische Sprachanalyse, welche eine (qualitative) Auswertung sehr großer 
Textmengen auf quantitativer Basis ermöglichen. Eine besonders prominente 
Klasse statistischer Verfahren, die im Folgenden genauer ausgeführt werden 
soll, ist das sogenannte Topic Modelling, mit dem eine große Dokumentmenge 
vollkommen automatisch in unterschiedliche Themenbereiche unterteilt wer- 
den kann (Blei 2012). Die Modellierungsannahme ist, dass jede Wortform einem 
Themenbereich zugehörig ist und sich aus der Verteilung thematisch zusam- 
mengehöriger Wortformen in einem Text die zugrundeliegenden Themenberei- 
che, eben die Topics, ableiten lassen. Große Textkollektionen können damit 
nicht nur thematisch unterteilt werden, sondern Texte beziehungsweise Text- 
abschnitte können auch anhand der identifizierten Themenstruktur klassifi- 
ziert und zusammengefasst werden. Topic-Modelle ermöglichen somit eine pri- 
mär inhaltsgeleitete Strukturierung von Texten. Auch wenn sie nicht direkt zur 
Extraktion individueller (Syntax-)Strukturen, Informationen oder Aussage- 
regelmäßigkeiten beitragen, können die Ergebnisse der automatischen thema- 
tischen Einteilung als Vorverarbeitungsschritt für die weitergehende Analyse 
sehr nützlich sein. Insofern Topic-Modelle inhaltlich interpretierbare Cluster 
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rein aus statistischer Beobachtung von Regelmäßigkeiten in sprachlichen 
Oberflächenstrukturen ableiten, nämlich dem gemeinsamen Vorkommen von 
Wörtern in Dokumenten, können sie als eine interessante Brückentechnolo- 
gie zwischen eher an Inhalten interessierten Geistes- und Sozialwissenschaft- 
lichen (Sub-)Disziplinen und der Linguistik gesehen werden. Insbesondere 
für Bindestrich-Linguistiken wie die Diskurs- (Spitzmüller & Warnke 2011), 
Sozio- oder Polito-Linguistik (Niehr 2014) ergeben sich vielversprechende An- 
knüpfungspunkte. 

Quantitative Methoden spielen seit den späten 1960er Jahren eine zentrale 
Rolle in der Korpuslinguistik (Kučera & Francis 1967). Verfahren, welche über 
bloße Häufigkeitsstatistiken hinausgehen und vielmehr auf einem statistischen 
Modell der Wortverteilungen im Text basieren, finden sich erst seit den 1990er 
Jahren (Dunning 1993). Der Ansatz des Topic Modelling knüpft an derartige 
wahrscheinlichkeitstheoretische Betrachtungen an und ist ein Bayes’scher An- 
satz. Das heißt, es wird auf der Grundlage bedingter Wahrscheinlichkeiten das 
Auftreten von Wortformen betrachtet, wobei für alle unbekannten Auftretens- 
wahrscheinlichkeiten, die sogenannten Modellparameter, eine theoretische 
Vorannahme, die sogenannte A-priori-Verteilung, definiert wird, die ein ange- 
nommenes Vorwissen beziehungsweise Nicht-Wissen über die Parameter enko- 
diert. Topic Modelling stellt eine Weiterentwicklung des sogenannten Probabi- 
listic Latent Semantic Indexing (PLSI) dar,’ einem für die semantische Analyse 
von Texten angepasstem Verfahren zur Berechnung von latenten Variablen auf 
der Grundlage bedingter Wahrscheinlichkeiten (Hofmann 1999). 

Wir beginnen mit einer kurzen Darstellung der grundlegenden Model- 
lierungsidee von Topic-Modellen (Abschnitt 2). Dabei zeigen wir, wie die Wort- 
formen in einem Dokument bzw. einer Dokumentkollektion verteilt sind und 
wie diese Verteilung fiir die Identifizierung von Topics genutzt werden kann. 
Hierauf aufbauend skizzieren wir die wesentlichen Aspekte des ersten Topic- 
Modells, der Latent Dirichlet Allocation (LDA; Abschnitt 3). Im folgenden Ab- 
schnitt stellen wir Beispielanwendungen von Topic-Modellen auf verschiede- 
nen Textquellen wie literarische Texte, Nachrichten und Social Media-Daten 
vor (Abschnitt 4). Schließlich gehen wir auf einige wichtige Probleme und Best 
Practices bei der fachwissenschaftlichen Anwendung von Topic-Modellen ein 
(Abschnitt 5) und fassen abschließend die Möglichkeiten ihrer Nutzung in den 
Sprachwissenschaften zusammen (Abschnitt 6). 


1 PLSI ist auch bekannt unter der Bezeichnung Probabilistic Latent Semantic Analysis (PLSA). 
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2 Intuition 


Um die Grundidee des Topic Modeling nachvollziehen zu können, wollen wir 
nachfolgenden Text von Ludwig M. Eichinger betrachten: 


In analoger Weise wandte sich Maria Fernandez-Villanueva der Frage zu, welche Stellung 
die Wortbildungslehre in einem Germanistikstudium in Spanien haben solle. Im normalen 
Curriculum der spanischen Germanistikstudiengänge habe die Wortbildungslehre einen 
festen Platz, sowohl als Element der grammatischen Teile linguistischer Einführungs- 
kurse, als auch in spezifischen Seminaren etwa zu lexikalischer Morphologie. Auch in 
den Sprachkursen würden Lesestrategien zur Auflösung von Wortbildungen vermittelt. 
Allerdings sollte man sich über die Art und Weise sowie über das Ziel dieser Vermittlung 
nochmals Gedanken machen. Da die Muttersprache der Studierenden Spanisch, Katala- 
nisch, Galizisch oder Baskisch ist, sei die kontrastive Perspektive zwischen Muttersprache 
und Deutsch als Fremdsprache auszunutzen, nicht nur um Wortbildungsprozesse zu 
erfassen, sondern auch um Funktionen zu erkennen, die in einer Sprache durch Wort- 
bildung, in der anderen vielleicht häufiger durch syntaktische Strukturen oder andere Mit- 
tel zum Ausdruck gebracht werden. Rezeptions- und Produktionsschwierigkeiten sollten 
zum Anlass genommen werden, um Unterstützungsmaterialien zu Lese-, Exzerpt- und 
Reformulierungsstrategien und zur Verfertigung von Begleitheften für Referate oder 
Hausarbeiten zu entwickeln, die funktional die Wortbildung ausnutzen. (Eichinger, Meliss, 
Dominguez Vasquez 2008: 354) 


Offenbar handelt der Text von der Relevanz der Wortbildungslehre beim Lernen 
von Deutsch als Fremdsprache. Naheliegende Themenfelder, in unserer Ter- 
minologie also Topics, lassen sich dabei durch die Zusammenfassung von im 
Text vorkommenden Wortformen beispielsweise wie folgt beschreiben: 

1. Aspekte der Wortbildungslehre: Wortbildung, Wortbildungslehre, lexika- 
lische Morphologie, Wortbildungsprozesse, Funktionen, syntaktische Struk- 
turen, Rezeptions- und Produktionsschwierigkeiten etc. 

2. Länder und Sprachen: Spanien, spanisch, Muttersprache, Spanisch, Kata- 
lanisch, Galizisch, Baskisch, Deutch, Fremdsprache etc. 

3. Sprachdidaktik: Curriculum, Germanistikstudium, Germanistikstudien- 
gange, Wortbildungslehre, linguistische Einführungskurse, spezifische Semi- 
nare, Sprachkurse, Lesestrategien, Vermittlung, kontrastive Perspektive, 
Rezeptions- und Produktionsschwierigkeiten, Referate, Hausarbeiten etc. 


Die Grundidee bei der Latent Dirichlet Allocation, dem ersten von Blei, Ng & 
Jordan (2003) eingeführten Topic-Modell, setzt genau an dieser Beobachtung 
an. Die erste Modellannahme besteht darin, dass jedes Dokument durch eine 
kleine Untermenge von global verfügbaren Themen charakterisiert werden 
kann (in unserem Beispiel die drei über die Begriffslisten charakterisierten 
Topics), wobei jedes Thema wiederum durch eine ebenfalls kleine Untermenge 
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des Gesamtvokabulars beschrieben wird. Fiir die Modellierung wird zweitens 
angenommen, dass diese Themen einen zentralen, wenn auch versteckten, 
oder latenten, Parameter bei der Generierung eines Textes darstellen - die 
Wahrscheinlichkeit, in einem Text oder Textabschnitt eine bestimmte Wort- 
form anzutreffen, hängt wesentlich davon ab, welches Thema vorab ausge- 
wählt worden ist. Die dritte Annahme besagt, dass wir bei der Analyse eines 
Textes oder einer Textkollektion mit dem Verfahren des Topic Modeling den 
für die Textproduktion vorausgesetzten generativen Prozess umdrehen können 
und aus den vorhandenen Daten, d.h. den Wortformen, welche den Text kons- 
tituieren, die latenten Topics als den „besten“ Parameter inferieren können, 
welcher die vorliegenden Daten am besten erklärt. 

Die Grundlage des Algorithmus bildet also eine Menge artifizieller Topics. 
Jedes dieser Topics ist eine Wahrscheinlichkeitsverteilung über das vorhandene 
Vokabular und gibt an, wie wahrscheinlich ein Wort in diesem Topic ist. Jedes 
Dokument wird nun als eine Wahrscheinlichkeitsverteilung über eben diese 
Topics dargestellt, welche wiederum angibt, wie wahrscheinlich ein Topic für 
das aktuelle Dokument ist. Die generative Annahme der Dokumententstehung 
wählt pro Wortposition im Dokument zuerst ein Topic (proportional zu seiner 
Wahrscheinlichkeit im Dokument) und danach ein Wort aus dem gewählten 
Topic (ebenfalls proportional zu seiner Wahrscheinlichkeit im gewählten 
Topic). Ausgehend von dieser Annahme und den tatsächlich vorhandenen 
Wörtern in den Dokumenten können Rückschlüsse auf die Struktur der Wahr- 
scheinlichkeitsverteilungen der Dokumente über Topics sowie der Topics über 
Wörter gezogen und diese approximiert werden. Das Ergebnis ist ein feature- 
transparentes Verfahren, welches in Aufgaben wie dem Dokument-Clustering, 
der Bestimmung von Dokument-Ähnlichkeit, der Dokument-Klassifikation oder 
der explorativen Suche nutzbringende Informationen beitragen kann. 


3 Topic Modeling 


Wir wollen diesen Modellierungsansatz nun konkretisieren. Grundlage der Text- 
repräsentation bildet das sogenannten bag of words-Modell, d.h. wir gehen 
davon aus, dass wir die Reihenfolge der Wortformen im Text ignorieren kön- 
nen. Jeder Textkorpus C enthält eine Menge von D Dokumenten, und jedes 
Dokument wiederum eine Menge von Na Wörtern (Tokens). Die Gesamtzahl der 
Tokens eines Korpus bezeichnen wir mit N, das Vokabular des Korpus aller 
voneinander verschiedener Wortformen (Types) mit V. Jedes Dokument ist eine 
parametrisierte Repräsentation des Vokabulars bezogen auf die Frequenz der 
Types im Dokument. 
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Zur Modellierung der oben skizzierten bedingten Wahrscheinlichkeiten 
nehmen wir an, dass jedes Dokument eine Mischung von (latenten) Topics ist 
und jedes Topic eine (beobachtbare) Mischung aus Wortformen. 


Notation 

P(z) ist eine Verteilung über Topics z in einem Dokument 

P(w|z) sind die Verteilungen über Wortformen w für Topics z 

P(z,=j) ist die Wahrscheinlichkeit, dass für i-te Wortform Topic j gezogen 
wird 


P(w;|z; = j) ist Wahrscheinlichkeit von Wortform w; im Topic j 


Die Wahrscheinlichkeit, zu welchem Topic eine Wortform gehört, können wir 
nun als Produkt der bedingten Wahrscheinlichkeit P(w;|z; = j) mal der Wahr- 
scheinlichkeit des Topics im Korpus P(z; = j) berechnen: 


r 
P(w;) = P(w;lz; = j)P(z; = j) 
=1 


j= 


Um zu beschreiben, welche Topics fiir ein Dokument bzw. welche Wörter fiir 
ein Topic wichtig (eigentlich: wahrscheinlich) sind, schreiben wir 


o0) = P(w|z = j) und a(d) = P(z). 


Tatsächlich beschreiben die latenten Variablen ọ und 0 zwei Multinominalver- 
teilungen bzw. Matrizen, nämlich die Zuordnung von Wörtern zu Topics (Wort- 
Topic Matrix ọ) sowie die Zuordnung von Dokumenten zu Topics (Dokument- 
Topic Matrix 0). Die Wort-Topic Matrix hat zwei Dimensionen, K und V, wobei 
K die Anzahl der Topics im Modell bezeichnet (eine Größe, die vom Nutzer 
vorher festgelegt werden muss) und V das Vokabular. Jeder Wert ;,,, bezeich- 
net somit die bedingte Wahrscheinlichkeit, mit der eine Wortform w aus V in 
einem Topic k aus K auftritt. Die Dimensionen der Dokument-Topic-Matrix 0 
sind K und D, wobei K wieder die Anzahl der Topics im Modell bezeichnet und 
D die Anzahl der Dokumente im Korpus. Jeder Wert Oax bezeichnet also die 
bedingte Wahrscheinlichkeit mit der Topic k aus K in einem Dokument d aus 
D auftritt. 

Für die Berechnung eines Topic-Modells müssen die beiden Matrizen @ 
und $ geschätzt werden. Hierfür werden für die skizzierte Modellierung folgende 
Festlegungen getroffen: 
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1. Die Themenverteilung 6 von Topics zu Dokumenten ist eine Dirichlet- 
Verteilung mit Hyperparameter a (die vom Nutzer vorab festgelegt werden 
muss).? 

2. Die Zuordnung von Wortformen zu Topics ~® ist ebenfalls eine Dirichlet- 
Verteilung mit Hyperparameter ß (die vom Nutzer vorab festgelegt werden 
muss). 

3. Die latenten Variablen werden aus den beobachteten Wortformen im Text 
durch statistische Inferenz abgeleitet, indem ein generativer Prozess simu- 
liert wird, der die tatsächlich beobachtete a posteriori Verteilung der Wort- 
formen am besten approximiert. (Meist wird hierfür das sogenannte Gibbs 
Sampling verwendet).? 

4. Um sinnvoll interpretierbare Ergebnisse zu erhalten, müssen für die LDA- 
Verteilungen 8 und p zwei konkurrierende Ziele austariert werden: Einer- 
seits sollen jedem Dokument so wenig Topics wie möglich eine hohe Wahr- 
scheinlichkeit haben, andererseits sollen aber auch in jedem Topic so wenig 
wie möglich Wörter mit hoher Wahrscheinlichkeit enthalten sein. Triviale 
Lösungen wären jeweils jedem Dokument nur ein Topic zuordnen, was aber 
das Erreichen des zweiten Zieles erschwert, oder umgekehrt jedem Topic nur 
ein Wort zuordnen, was aber das Frreichen des ersten Zieles erschwert. In 
der praktischen Anwendung müssen also beide Ziele im Auge behalten wer- 
den. Weiterhin ist zu bedenken, dass probabilistische graphische Modelle 
sich allgemein nicht analytisch berechnen lassen, weil die Komplexität der 
Evidenzberechnung exponentiell mit der Anzahl der Trainingspunkte 
(Beobachtungen) steigt. Die effiziente Parameterschätzung in Topic- 
Modellen stellt also für deren praktische Anwendung eine zentrale Heraus- 
forderung dar, bei der allerdings in letzter Zeit große Fortschritte gemacht 
worden sind (u.a. Schuster 2015; Teichmann 2016). 

5. In den vergangenen Jahren wurden zahlreiche Varianten des ursprüng- 
lichen LDA-Modells weiterentwickelt, welche unterschiedliche Aspekte in 
die Modellierung von Textkollektionen mit einbeziehen. Das Correlated Topic 


2 Die Dirichlet-Verteilung legt fest, wie wahrscheinlich eine multinomiale Verteilung ist. Be- 
trachten wir z.B. einen Würfel mit 6 Augen, dann gibt die Multinomialverteilung an wie wahr- 
scheinlich 1, 2 etc. auftreten. Die a priori Dirichlet-Verteilung sollte derjenigen Multinomialvertei- 
lung eine hohe Wahrscheinlichkeit geben, die allen Augenzahlen gleiche Wahrscheinlichkeit 
zuweist. Aber auch andere Verteilungen sind denkbar, etwa Würfel, bei denen nur wenige 
Augenzahlen eine hohe Wahrscheinlichkeit erhalten. Die Steuerung erfolgt über den Hyper- 
parameter. 

3 Beim Gibbs Sampling wird für jedes Wort abhängig von allen anderen Zuordnungen seine 
Topiczuordnung berechnet. Die hochdimensionale Verteilung wird durch wiederholtes Ziehen 
von niedrigdimensionalen Variablen simuliert. Von Verteilung über z ausgehend, werden also 
@ und 9 iterativ approximiert. 
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Model beispielsweise (Blei & Lafferty 2006) beriicksichtigt, dass bestimmte 
Themen bevorzugt gemeinsam in Dokumenten auftreten. Beim Author-Topic- 
Modell (Rosen-Zvi et al.2004) wird die Autoren-Präferenz für bestimmte 
Themen mit modelliert. Zeitdynamische Topic-Modelle (Jähnichen 2016) 
erlauben die Modellierung der Veränderung thematischer Zusammen- 
setzungen in diachronen Korpora. Darüber hinaus existieren zahlreiche wei- 
tere Varianten, welche etwa die Verknüpfung von Dokumenten mit externen 
Klassenvariablen erlauben (supervised LDA) oder gemeinsame Themen in 
multilinguale, alignierten (Mimno et al. 2009) und nicht-aliginierte (Boyd- 
Graber & Blei 2009) Dokumenten über Sprachgrenzen hinweg finden 
können. Je nach Anwendungskontext und Forschungsfrage können diese 
zusätzlichen Aspekte wertvolle Informationen für eine Analyse mitliefern. 
In vielen Fällen können jedoch dieselben Auswertungen mit dem ursprüng- 
lichen LDA-Modell in Verbindung mit den Dokument-Metadaten in ähn- 
licher Qualität erstellt werden. 


4 Anwendungsbeispiele 


Topic-Modelle können grundsätzlich überall dort eingesetzt werden, wo sehr 
umfangreiche Textressourcen vorliegen, die im Zuge einer fachwissenschaft- 
lichen Analyse nach inhaltlichen Kriterien strukturiert werden sollen, die mög- 
lichst direkt aus den Texten abgeleitet worden sind. Dabei sind die Anwen- 
dungsbereiche genau so vielfältig, wie die auszuwertenden Textressourcen 
und reichen von der Marktanalyse über den Sicherheitsbereich bis in die tradi- 
tionellen Geistes- und Sozialwissenschaften, etwa der Literaturwissenschaft 
oder der Politikwissenschaft. Um die Bandbreite der Einsatzmöglichkeiten zu 
verdeutlichen, möchten wir im Folgenden Beispiele für den Einsatz von Topic- 
Modellen auf unterschiedlichen Textsorten und mit unterschiedlichen Erkennt- 
nisinteressen vorstellen. 


4.1 Literaturstudien 


Bereits einleitend haben wir auf das Culturomics-Projekt sowie Morettis For- 
schungsprogramm eines Distant Reading in den Literaturwissenschaften hinge- 
wiesen. Tatsächlich haben Topic-Modelle in den letzten Jahren zu einer Reihe 
interessanter Forschungsprojekte beigetragen, bei denen große, diachrone 
Literatursammlungen auf textübergreifende Zusammenhänge und Strukturen 
untersucht wurden. Tangherlini & Leonhared (2013) beispielsweise greifen 
Morettis Formulierung des „Great Unread“, der großen Menge ungelesener 
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Texte in den klassischen Kanons der Einzelphilologien, direkt auf. Unter Nut- 
zung von Topic-Modellen entwerfen sie einen Forschungsablauf, mit dem sie 
die vielen tausend danischen Werke im Google Books-Projekt auf konkrete 
Fragestellungen hin näher untersuchen. So untersuchen sie unter anderem, 
wie sich die 1870 auf Dänisch erschienene Übersetzung von Darwins Ent- 
stehung der Arten in der dänischen Literatur niedergeschlagen hat. Technisch 
gelingt dies, indem ein Topic-Modell, berechnet auf Darwins Werk, auf Litera- 
turtexte angewendet wird. So können Textpassagen identifiziert werden, die 
thematisch bzw. von ihrem Wortgebrauch her Ähnlichkeiten zu den damals 
revolutionären, naturwissenschaftlichen Betrachtungsweisen aufweisen. Mit 
diesem Ansatz können Tangherlini & Leonhard (2013) einen großen Einfluss 
der neuen, durch Darwin inspirierten Sicht auf den Menschen in der Literatur 
nachweisen. Gleichzeitig identifizieren sie bekannte, populäre Texte passend 
zu den Thematisierungsweisen, können aber auch heute bereits in Vergessen- 
heit geratene Werke aus dem Google Books-Korpus zu Tage fördern. Mit ihrer 
Methode gelingt es also, eine umfassende Analyse des Einflusses von Darwins 
Werk auf die dänische Literatur zu zeichnen, die zudem reproduzierbar und 
intersubjektiv nachvollziehbar Gegenstand neuer literaturwissenschaftlicher 
Auseinandersetzungen werden kann. Mit Nachvollziehbarkeit und Güterkrite- 
rien bei der Anwendung von Topic-Modellen beschäftigen sich auch Jockers & 
Mimno (2013). Sie untersuchen in ihrer Arbeit 3.279 fiktionale Werke aus den 
Jahren 1899 bis 1970 mit einem K = 500 topics umfassenden LDA-Modell. Ihre 
Fragestellung lautete, wie sich externe Faktoren wie Geschlecht, Nationalität 
oder Geburtsjahr auf die Themenwahl von Autoren in der englischsprachigen 
Literatur des 19. Jahrhunderts auswirken. Methodisch entwickelten sie dafür 
ein Verfahren, mit dem sich Signifikanz der Themenabhängigkeit von solchen 
externen Faktoren bestimmen lässt. 


4.2 Wissenschaftsgeschichte 


Nicht nur große Literaturkorpora lassen sich mit Topic-Modellen untersuchen. 
Mittlerweile wird das Verfahren erfolgreich in der Wissenschaftsgeschichte ein- 
gesetzt, um Schwerpunkte der thematischen Entwicklungen einzelner Diszi- 
plinen über den Verlauf des 20. Jahrhunderts nachzeichnen zu können. Dazu 
werden (retro-)digitalisierte Archive von wissenschaftlichen Fachjournalen 
ausgewertet. Beye Riddel (2014) beispielsweise analysiert die Entwicklung von 
Themen in vier germanistischen Journalen, die über den Archivanbieter JSTOR 
zur Verfügung stehen. Sein Korpus umfasst mehr als 22.000 Fachartikel, die 
zwischen 1928 und 2006 veröffentlicht wurden. Hit Hilfe einer LDA-Analyse 
identifiziert er Trends abnehmender (etwa Sprachpädagogik), zunehmender 
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(etwa feministische Literatur) und wiederkehrender (z. B. Grimm’sche Marchen) 
Themen tiber die Zeit. Fiir einzelne Themen aus einzelnen Zeitabschnitten las- 
sen sich repräsentative Fachartikel identifizieren, die eine tiefere inhaltliche 
Charakterisierung der Themen erlauben. Zudem können die Informationen 
über Topic-Zusammensetzungen jedes einzelnen Dokuments dazu genutzt wer- 
den, thematisch ähnlich zusammengesetzte Artikel zu finden. Eine ähnliche 
Analyse liefern Goldstone & Underwood (2012) mit ihrer Analyse der Artikel in 
PMLA, dem seit 1884 erscheinenden Journal of the Modern Language Association 
of America. Ihre Analyse ist besonders interessant, als dass beide Forscher un- 
abhängig voneinander eine Topic-Modell-Analyse auf demselben Datensatz 
durchgeführt haben und beide Ergebnisse miteinander vergleichen. Dadurch 
zeigt sich das große Potenzial von solchen Analysen für intersubjektive Nach- 
vollziehbarkeit, aber auch die möglichen Probleme und Fallstricke die auftre- 
ten können. Der Artikel gibt exzellente Hinweise darauf, wie Ergebnisse von 
Topic-Modellen in Abhängigkeit vom jeweiligen Forschungsinteresse inter- 
pretiert werden können. 


4.3 Zeitgeschehen 


Topic-Modelle eignen sich nicht nur dazu, in historischen Daten Zusammen- 
hänge zu erkennen, sondern auch zur Beobachtung und Einordnung aktueller 
Ereignisse des Zeitgeschehens. Ein Beispiel liefern die vom Projekt Deutscher 
Wortschatz an der Universität Leipzig berechneten Wörter des Tages, welche 
eine automatische Schlüsselwortextraktion auf Artikeln der Tagespresse durch- 
führen, wobei die thematischen Zusammenhänge der zugrundeliegenden Arti- 
kel anhand eines Topic-Modells berücksichtigt werden. Auf diese Weise entste- 
hen themenspezifische Wortwolken, mit denen sich das Geschehen eines Tages 
zusammenfassen und auf einen kurzen Blick erfassen lässt. Abbildung 15.1 
zeigt eine solche Zusammenfassung für den 20. Januar 2017, bei der die Amts- 
einführung des amerikanischen Präsidenten neben politischen Ereignissen in 
Gambia und verschiedenen Sport- und Boulevardereignissen sichtbar wird. 
Neben den klassischen Zeitungsmedien können Topic-Modelle aber auch 
bei der Analyse sozialer Medien eingesetzt werden. So wurden im EU-Projekt 
Slándáil, das zum Gegenstand hatte, die Nutzung sozialer Medien im Katastro- 
phenfall zu untersuchen, auch Nachrichten in Facebook und Twitter mit Topic- 
Modellen analysiert, die während der großen Flut in Sachsen 2013 von Betroffe- 
nen abgesetzt worden sind (Gründer-Fahrer et al. 2018). Die Ergebnisse zeigen 
zum einen, dass Facebook und Twitter von den Nutzern offenbar unterschied- 
lich genutzt werden (vgl. Abb. 15.2): Die Nutzereinträge in Facebook, das die 
Kommunikation von Nutzern in ihren sozialen Netzwerken zum Ziel hat und 
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US Present Ban = gamdsche Gambias — Wostatrkanache a — iaaa "i 
Donald Trump SEPS u abgewählte Senegal i Pekeler 

ap niul Ecowas Sret “ > 
Amtseinführung aan | Baron See ee ome Kitzbühel 
Trump Sone Jammeh wence Handball-WM 

Antritisredo Amen m. 
Pe vows warn Gambia Yeyazmın, sro CESU comes 
Adama mbischen Zavascki Matthias Mayer 


z a 2 = 
‘alle Fraulein El Chapo eee 
Hank Loth Chapo ai verschütteten 
a n a Dacrungeicamp 
ea. Se Camia alas Abruzzen 
Honey Kader Loth Überlebenden 
Drogenboss seare Lesern 


Abb. 15.1: Wörter des Tages vom 20.1. 2017.* 


emotional support water levels weather, technical 


& thanks & road closures weather, subjective 


water levels 
& alarm levels 


financial flood aid current situation 


& school closure & disaster management 
financial aid current situation 
& damage (live-ticker, webcams, 
weather warnings) 
donations in kind actions 


& volunteering situational overview 
incl. action 


Abb. 15.2: Topics in Facebook (links) und Twitter (rechts). 


langere Texte sowie emotionale Wertungen erlaubt, haben einen Schwerpunkt 
bei Topics, die sich der emotionalen Bewältigung der Flutkatastrophe sowie 
der Organisation von Hilfeleistungen zuordnen lassen. Die Nutzereintrage in 
Twitter, das auf die Verbreitung sogenannter Microblogs an ein Netzwerk aus 
Followern ausgerichtet ist, werden Schwerpunkte in der Vermittlung sachlicher 
bzw. subjektiver Information über Wetter und Pegelstände sowie Schadens- 
meldungen erkennbar. 

Zum anderen spiegeln die Topics im zeitlichen Verlauf deutlich die ver- 
schiedenen Phasen der Flutkatastrophe wieder, wie es die vorstehende Abbil- 
dung 15.3 für Facebook verdeutlicht: Zunächst steht der Austausch über die 
tatsächliche Lage im Vordergrund, dann wird Hilfe organisiert und schließlich 
geht es um Spendenaufrufe, emotionale Aufarbeitung und gegenseitigen Dank. 


4 http://wod.corpora.uni-leipzig.de/de/de/2017/01/20 
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Topic 


— water levels & road closures 

— current situation & disaster management 
— actions & volunteering 

~ donations in kind 

— financial flood aid & school closure 

— emotional support & thanks 


Topic frequency absolute 


Abb. 15.3: Zeitlicher Verlauf von „Flut-Topics“ in Facebook. 


5 Evaluierung und Best Practices 


Zur Aufteilung einer Dokumentkollektion in Themen benötigt der LDA- 
Algorithmus drei sogenannte Hyperparameter: K, die Anzahl an Themen, die 
inferiert werden soll sowie a und ß, die Dirichlet-Parameter, welche die Topic- 
Dokument- bzw. die Wort-Topic-Verteilung steuern. Die Wahl dieser Hyperpara- 
meter hat unmittelbare Auswirkungen die Qualität und Interpretierbarkeit der 
Modelle. Je nachdem, wie viele K-Themen gefunden werden sollen, lassen sich 
die Bedeutungen der einzelnen Topics unterschiedlich gut aus den in ihnen 
enthaltenen, hochwahrscheinlichen Begriffen rekonstruieren. Wird nur eine 
kleine Anzahl an Topics extrahiert, werden diese eher durch abstrakte, all- 
gemein Begriffe geprägt. Ihnen lässt sich dann schlecht ein konkreter thema- 
tischer Sinn zuordnen. Wird ein sehr hohes K gewählt, so können Bedeutungen 
der Topics stark auf seltene Aspekte in der Dokumentkollektion bezogen sein. 
Die Anzahl an Themen sollte daher mit Bedacht gewählt und von verschiede- 
nen forschungspraktischen Erwägungen abhängig gemacht werden. Dazu kön- 
nen mehrere Modelle mit unterschiedlichen K berechnet und evaluiert werden. 
Die Qualität eines Topic-Modells kann in diesem Zusammenhang mit verschie- 
denen Verfahren beurteilt werden (Maier et al. 2018). Qualitativ kann beurteilt 
werden, ob den einzelnen Topics (intersubjektiv) ein bestimmter Sinn zuge- 
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schrieben werden kann. Quantitativ kann gemessen werden, ob hochwahr- 
scheinliche Begriffe eines Topics tatsächlich gemeinsam miteinander in Doku- 
menten auftreten (Topic Coherence). Diese Ansätze eignen sich gleichzeitig um 
geeignete Werte für die beiden Dirichlet-Parameter a und ß zu finden. Hohe 
Werte (>= 1) dieser Parameter sorgen dafür, dass sich die Wahrscheinlichkeiten 
von Topics bzw. Worten gleichmäßiger über die einzelnen Dokumente bzw. 
Themen verteilen. Dadurch können Themen allgemeiner und weniger trenn- 
scharf werden. Kleine Werte für a und ß (< 1) sorgen dagegen dafür, dass die 
Themen- bzw. Wortzusammensetzungen spezifischer werden, bei sehr kleinen 
Werten jedoch ebenfalls zu einer schlechten Modellqualität führen kann. 

Eine weitere Schwierigkeit im Umgang mit Topic-Modellen ergibt sich aus 
deren eingeschränkter Reproduzierbarkeit aufgrund ihrer Berechnung mit sto- 
chastischen Inferenzverfahren. In aller Regel arbeiten computergestützte statis- 
tische Modelle und Verfahren für die automatische und semi-automatische 
Sprachanalyse robust, was heißt, dass eine wiederholte Messung gleiche Fr- 
gebnisse erzielt. Diese Eigenschaft erfüllen Topic-Modelle nur bedingt. Die 
Schätzmechanismen für die Parameter eines Topic-Modells, meist implemen- 
tiert unter Verwendung von Gibbs Samplern oder variationellen Inferenz- 
methoden, basieren auf der iterativen Annäherung an einen Optimalzustand, 
also einen Zustand an dem das Modell die zugrunde liegenden Daten bestmög- 
lich erklärt. Die Startwerte für die Parameter, von denen aus die Annäherung 
an das Optimum begonnen wird, werden im Normalfall zufällig initialisiert 
(engl. seed). Im Verlauf der Inferenz werden aus den geschätzten bedingten 
Wahrscheinlichkeiten Stichproben gezogen (engl. sampling) und die Parameter 
des Modells iterativ aktualisiert. Durch den Einfluss dieser Zufallsprozesse zu- 
sammen mit den Verteilungseigenschaften natürlicher Sprache in den Doku- 
menten, als auch in der gesamten Dokumentenkollektion (bedingt durchs 
Zipf’sche Gesetz), kann es dabei zu unterschiedlichen Resultaten, also Topic 
Verteilungen, kommen. Statt der analytisch optimalen Lösung der Modell- 
gleichung (das globale Optimum, welches allerdings nicht berechenbar ist) fin- 
den die stochastischen Inferenzprozesse also nur lokale Optima innerhalb des 
Raums aller möglichen Wahrscheinlichkeitsverteilungen von @ und 9. Studien 
zur Reliabilität haben gezeigt, dass sich die Modelle, je nach Kollektion und 
Inhalt, hinsichtlich der Interpretierbarkeit und Ähnlichkeit der Topics lediglich 
zu ca. 50-80 % reproduzieren lassen (Maier et al. 2018). 

Diese Einschränkung muss in Anwendungen, die auf eine inhaltliche Inter- 
pretation der Topics angewiesen sind, bedacht werden. Zudem wurden im 
Zuge der Untersuchung dieses Phänomens Strategien vorgeschlagen, um die- 
sem Problem zu begegnen. Die einfachste Strategie besteht darin, wiederholte 
Berechnungen mit dem gleichen Startwert zu initialisieren. Dies führt zu sta- 
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bilen Ergebnissen, suggeriert jedoch nur eine vermeintliche Stabilitat der 
Inferenz. Wesentlich vielversprechender sind Strategien, die eine vorherige 
Initialisierung der Themenzughörigkeiten mit Hilfe von vorgeschalteten Ana- 
lysen vornehmen (Lancichinetti et al. 2015), die Stichproben während der 
Schätzung durch andere Wörter im Dokumentkontext zu beeinflussen (Koltcov, 
Koltsova & Nikolenko 2014), oder versuchen die Topics mit deduktiv festgeleg- 
ten Wortkontexten aus einem bestimmten Domänenvokabular zu fixieren 
(Andrzejewski Zhu & Craven 2009). 


6 Zusammenfassung 


Topic-Modelle stellen ein mächtiges Werkzeug dar, um große Textmengen in 
einer Vielzahl von Anwendungskontexten zu erschließen. Insofern thema- 
tische Zusammenhänge modelliert werden, können sie für die philologische 
Forschung ganz direkt überall dort einen Beitrag leisten, wo die Auswertung 
von Inhalten von Interesse ist. Dies ist mit Sicherheit für die oben genannten 
Beispiele der Literaturstudien unter dem Distant Reading-Paradigma sowie für 
die Wissenschaftsgeschichte von großem Interesse. Aber auch sprachwissen- 
schaftliche Arbeiten jenseits der konkreten Inhalts- bzw. Themenebene können 
in der Arbeit mit digitalen Textquellen von Topic-Modellen profitieren. Mit der 
Zurückdrängung des Szientismus in der Linguistik sowie in der Inhaltsanalyse 
als alleingültiges Paradigma (vgl. Fühlau 1981) ist die Notwendigkeit der 
Beachtung vielfältiger, darunter auch inhaltlich-thematischer, Kontexte bei 
der wissenschaftlichen Auseinandersetzung mit Sprachhandlungen offensicht- 
lich geworden. Forschungsrichtungen wie die Begriffsgeschichte/Historische 
Semantik oder Vokabularanalysen in der Sozio- und Polito-Linguistik können 
in diesem Zusammenhang durchaus von einer thematischen Vorselektion ihres 
(digitalen) Ausgangsmaterials profitieren. Im Projekt ePol — Postdemokratie 
und Neoliberalismus (Wiedemann, Lemke & Niekler 2013) beispielsweise wurde 
die Frage untersucht, ob sich im Öffentlichen Diskurs der Bundesrepublik 
Deutschland die Zunahme einer „Alternativlosigkeitsrhetorik“ in Bezug auf 
politische Begründungen beobachten lässt (Ritzi & Lemke 2015). Gesucht wur- 
de nach Begriffen wie „alternativlos“, „unabdingbar“ oder „unverzichtbar“ in 
einem repräsentativen Zeitungskorpus von 1949 bis 2011. Zwar gibt schon eine 
einfache Frequenzanalyse für diese Begriffe in allen Artikeln des Politikressorts 
über die Zeit gewissen Anhaltspunkte für die Konjunktur von Alternativlosig- 
keit als Begründungsmuster. Richtig aussagekräftig werden solche Vokabular- 
analysen aber erst, wenn die Grundgesamtheiten, in denen die Frequenz- 
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messungen stattfinden nach bestimmten thematischen Kontexten vorgefiltert 
werden. Grenzt man das Untersuchungskorpus vor der Messung auf europa- 
politische, sicherheitspolitische oder gesundheitspolitische Themen ein, lassen 
sich ganz spezifische Beobachtungen für die Verbreitung des Begründungs- 
musters machen, sowie thematisch kohärente Beispieltexte für eine weitere 
qualitative Analyse filtern. Topic-Modelle sind in diesem Szenario nicht ein 
Endergebnis der Analyse selbst, sondern stellen lediglich ein exzellentes 
Vorverarbeitungswerkzeug dafür zur Verfügung. Im Sinne dieser Vielfalt von 
Verwendungsmöglichkeiten von Topic-Modellen stellen auch Goldstone & 
Underwood (2012) in ihrer vergleichend-experimentellen Studie fest: „A topic 
model doesn’t just show you what people are writing about [...]. It can also 
show you how they’re writing. [...] To put this another way, topic modeling can 
identify discourses as well as subject categories and embedded languages.“ 
(Goldstone & Underwood 2012) Dabei muss betont werden, dass der vollauto- 
matische Ansatz keineswegs bedeutet, dass den sie nutzenden Forscherinnen 
und Forschern Interpretation und das Abwägen zwischen Alternativen abge- 
nommen würde. Tatsächlich erfordert die Interpretation eines Topic-Modells 
und dessen Einbindung in ein kohärentes Forschungsdesign ein hohes Maß an 
Kreativität und den Einsatz von Kontext- bzw. Fachwissen der Forschenden, 
um aus den numerisch repräsentierten Clustern erhellende und zulässige 
Schlüsse zu ziehen. Dass die Suche nach geeigneten Modellparametern und die 
stochastischen Inferenzprozesse für wiederholte Modellberechnungen immer 
wieder zu leicht anderen Ergebnissen führen, muss nicht zwingend als ein me- 
thodisches Defizit betrachtet werden. Reproduzierbarkeit und Reliabilität an 
ein methodisches Verfahren, die aus einer szientistischen Perspektive als zwin- 
gende Bedingungen erscheinen, haben in einer poststrukturalistischen Per- 
spektive deutlich geringeren Stellenwert. Hier kann die mangelnde Stabilität 
der Modellergebnisse sogar als Vorteil erscheinen. Goldstone & Underwood be- 
tonen den Fakt, dass leicht variierende Modelle aus wiederholten Modellbe- 
rechnungen mit unterschiedlichen Parametern immer wieder neue Perspek- 
tiven auf das zugrunde liegende Textkorpus ermöglichen. Dabei können alle 
diese Perspektiven gleichsam Gültigkeit beanspruchen, insofern sie direkt aus 
den Daten abgeleitet sind: „But they’re all pictures of the same evidence and 
are by definition compatible. Different models may support different interpre- 
tations of the evidence, but not interpretations that absolutely conflict.“ Für 
die Nutzung computergestützter Verfahren in der philologischen Forschung 
mit ihren vielfältigen Methoden, Schulen und Paradigmen ist dies eine kaum 
zu unterschätzende Erkenntnis. Computergestützte Verfahren der automa- 
tischen Sprachverarbeitung liefern uns eben nicht die eine objektive Wahrheit 
auf die über Sprache vermittelten Forschungsgegenstände, sondern eröffnen 
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uns stattdessen vielfaltige, neue Perspektiven, mit denen der forschende Geist 
in die Lage versetzt wird, Erkenntnis aus den mittlerweile handisch nicht mehr 
tiberschaubaren Textmengen zu gewinnen. 
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